融合条带池化与注意力机制的遥感影像农村道路识别方法

农村道路是分布在乡村、田间,主要供各种农用机械、非机动车辆等行驶,重点服务于农业生产的道路。与城市道路不同,农村地区的道路分布更广、更分散,且道路类型多样,这使得农村道路数据获取存在遗漏、更新缓慢等问题。农村地区田间道路是农田建设和农业发展的重要设施[1],实时准确地掌握农村道路信息可为农业机械作业导航、高标准农田评价等提供基础数据。

传统基于遥感影像的农村道路数据提取方法,主要基于道路光谱特征和几何特征,通过目视解译或半自动的方法进行[2-3],如基于不同材料路面的半自动提取模型[4]、基于农村公路光谱几何信息的面向对象方法等。但这些识别方法效率低、精度不高,随着遥感影像分辨率的提高,已不能满足高效、高精度的道路提取需求[5]。近年来,深度学习凭借其高性能、高精度等优势,成为遥感影像地物识别研究的热点。语义分割可以逐层提取图像的像素特征,并为其标注所属的语义类别[6],目前已被广泛应用于遥感影像地物识别。然而,窄而不规则的道路形状、路旁行道树遮挡[7]以及国道、省道与田间路光谱和纹理差异大等因素,使非硬化路面易与田埂、沟渠等地物混淆,影响农村道路识别精度。为适应不同类型道路识别的需求,学者对经典网络结构进行了改进[8]。如ALSHEHHI等[9]通过全局平均池化替代LeNet模型的全连接层,解决了数据冗余和训练困难问题。ZHANG等[10]构造的Deep Residual U-Net模型,相比普通的U-Net,引入残差结构的U-Net能够在提取道路细长、复杂形态特征方面表现出更优性能。研究者还提出了多种改进模块以解决道路识别的难点问题,如空洞卷积[11-12]可扩大感受野以适应道路的长距离特征[13],动态蛇形卷积[14]可针对道路和血管等细长结构目标提升识别精度,但其参数量较高限制了大范围应用。SHIT等[15]设计了一种损失函数clDice,以增强道路等细长结构地物提取能力。此外,学者还提出了不同注意力机制模块[16],如通道注意力模块[17]、卷积注意力模块[18]和协调注意力模块[19],这些模块能有效改善模型的全局特征提取能力和空间信息捕获能力。尽管这些方法在提升模型性能方面有所进展,但农村道路识别仍存在挑战,如高分辨率遥感影像背景复杂,农村道路易受遮挡和相似地、物干扰,精细目标提取能力不足,此外,复杂网络结构增加了计算资源需求,不利于大范围高分辨率遥感影像的处理。

针对以上农村道路识别问题,本文构建一种融合条带池化与协调注意力机制的遥感影像农村道路识别模型。在自制道路数据集以及公开数据集上,开展农村道路提取试验,并将本文模型与其他经典模型试验结果进行对比,通过消融试验验证各模块效果,在大范围遥感影像上进行测试以验证其实用性,以期为农村道路遥感影像识别提供方法。

1 研究方法

1.1 农村道路提取网络模型

以U-Net作为网络整体结构,其经典的编解码结构和跳跃连接机制,能有效保留高分辨率细节信息,并实现全局与局部特征融合。为充分提取农村道路复杂特征,在下采样特征提取部分,采用较深的ResNnet-50替换U-Net中的普通编码层,ResNet-50是一种深度残差网络,其残差模块能缓解深层网络训练中的梯度消失问题,同时较深的网络结构可提升模型对复杂特征的学习能力。在ResUnet50基础上,根据农村道路的空间形态和光谱特征,在编码结构中引入条带池化模块,以增强网络对长条形道路的关注度;此外,混合池化模块加入到编码-解码的中间通道,用于兼顾多形状道路识别,削弱相似地物干扰;在残差块中增加CA模块,以增强各通道联系和空间信息的关联表达,使网络捕捉被遮挡道路以及细小道路特征。最终构建SMC_ResUnet (Strip mixed pooling and coordinate attention ResUnet)网络模型,模型整体结构如图1所示,红色虚线框表示新增模块。

1.2 条带池化

条带池化采用1个条带状的池化窗口,沿水平和竖直维度分别对单列(H,1)和行(1,W)的特征值进行平均计算,水平条带池化后的输出yh为

同理,竖直条带池化后的输出yw为

式中 H、W——特征图列高度和行宽度x——原始特征值 y——输出特征值

较窄的池化核能够排除无关区域信息干扰,集中长距离空间范围上的特征信息,扩大特征提取感受野,可有效捕捉农村道路的空间形态特征。

1.2.1 条带池化模块

条带池化模块利用水平和竖直条带池化捕获远距离上下文特征,其构成如图2所示[20],输入特征图为C×H×W,经过水平和竖直条带池化后,输出H×1和1×W的条带特征图,经过卷积核尺寸为3的卷积沿上下和左右扩展,扩展后的特征图叠加融合,得到H×W的特征图。最后通过1×1卷积与Sigmoid激活函数处理后,与原输入图相乘得到最终输出结果。

1.2.2 混合池化模块

为减少农村道路周边相似地物干扰,并避免条带池化捕获远距离特征时引发的误提,将条带池化与金字塔池化结合,构造混合池化模块。如图3所示[20],混合池化模块由2个子模块构成,分别捕获输入特征图不同位置之间的短距离和长距离依赖关系,其中空间金字塔池化子模块提取短距离的特征,条带池化子模块提取长距离依赖的空间特征,最后将2个子模块的输出特征图进行融合。

1.3 CA模块

农村道路较窄且区域面积占比较小,存在被遮挡问题。针对该类问题,引入轻量化CA机制, CA模块整体构成如图4所示[19],为能够捕获具有精准位置信息的远程空间交互,沿特征图高和宽方向编码通道信息,并通过1×1卷积降维生成特征图f(缩减比为16)。随后将f分解为2个张量fh和fw,经过个1×1卷积及Sigmoid激活函数,生成注意力权重gh和gw,计算式为

式中 σ——Sigmoid激活函数Fh、Fw——对h方向和w方向特征进行1×1卷积

最终,CA模块输出为

2 试验数据与环境

2.1 数据来源与预处理

选取黑龙江省嫩江市作为研究区,该区域耕地面积广大,人口密度低,农村道路网络复杂,既包含等级公路、高标准农田建设硬化道路,也包含农民日常出行、农机行驶的自然道路。

嫩江市遥感道路数据集以黑龙江省嫩江市全国第三次国土调查(三调)工作底图作为数据源,影像来源于2021年7月采集的分辨率1 m高分二号(FG-2)。将该区域遥感影像裁剪为256像素×256像素图像,筛选出包含农村道路信息图像共892幅。使用Labelme软件,参照三调数据中农村道路、公路用地、城镇村道路3类图斑进行标注,部分区域根据实地调研和无人机影像进行比对标注。以比例8∶1∶1随机划分样本数据,其中训练集714幅,验证集和测试集各89幅。为了使农村道路特征提取更加充分,避免训练过拟合,在训练过程中,分别对训练图像旋转90°、180°、270°以及镜像翻转变换,实现数据增强。

2.2 试验环境

采用Window 11操作系统,开发语言为Python 3.6,模型采用Pytorch深度学习框架,CUDA版本为12.1,开发平台为JetBrains PyCharm2023,所有试验均在配置为Intel(R) Core(TM) i9-13980HX CPU和NVIDIA GeForce GTX 4060 GPU的计算机上训练和测试。

使用交叉验证的训练方式,训练集和验证集同时输入模型,每一个训练周期后,选择验证集数据计算训练损失和精度,不断优化权重。为提高训练效率,采用基于一阶导数随机梯度下降算法的Adam[21]作为模型损失函数的优化器,初始学习率设为0.000 1,模型训练设为100次。

损失函数通过衡量和调整模型预测值与真实值间差值实现更好的预测性能。Focal Loss适用于类别不平衡的分割任务, Dice Loss常用于小目标和类别不均匀的场景,根据农村道路特点,分别计算Focal Loss和Dice Loss,加权求和得到每个像素的损失函数,计算式为

式中 λ——调节参数,控制2个损失函数权重,取0.5

2.3 精度评价

为评估模型综合性能,采用的精度评价指标包括平均准确度(OA)、平均交并比(MIoU)、召回率(Recall)、精确度(Precision)、 F1分数(F1-score)及模型参数量。

3 试验结果与分析

3.1 训练结果

基于本文构建的SMC_ResUnet模型,对训练集迭代100周期。训练过程的损失值以及验证集精确度变化如图5所示。由图5可知,该模型经60个训练周期后,其各项指标趋于平稳,验证精确度稳定在93%左右,验证损失值稳定在0.09左右,训练损失值稳定在0.02左右,已接近最佳训练效果。

将训练后的权重文件加载到模型中,对测试集进行农村道路提取,OA、MIoU、召回率、精确度和F1分数测试结果分别为98.58%、78.06%、83.40%、90.72%和85.89%。

3.2 试验结果对比

为验证本文构建的模型对农村道路遥感影像提取的优越性,选取Deeplabv3+[22]、 U-Net[23]、 SegNet[24]3种经典语义分割模型进行对比试验,所有模型在相同试验环境和数据集下进行训练和测试,试验结果如图6所示。由图6中A、B、C行可知,3种场景同时存在公路和田间道路,由于农村道路数据集中田间路占比较高,而公路与田间路在色调、形状和纹理上存在差异,导致各模型对公路特征的识别较弱,提取结果较差,本文模型的公路提取完整性优于其他对比模型;由D、E行可知,2种场景中田间道路较窄且被植被严重遮挡,本文模型在此类场景下的道路识别完整性较好;由F、G行可知,2种场景为道路周围环境复杂,多种地物对识别结果造成干扰,场景F中4种模型均错误地将颜色相近的沟识别为道路,场景G中均出现了漏提,本文模型在整体识别的完整性和错误率方面优于对比模型。各项测试评价指标对比如表1所示,本文SMC_ResUnet模型的F1分数分别高于对比模型0.46、2.55、0.28个百分点。

3.3 泛化性能测试试验

为验证本文SMC_ResUnet模型在不同遥感影像上提取农村道路的泛化性能,选用深度地球道路数据集(https:∥www.kaggle.com)进行对比试验。该数据集包含6 626幅来自6个不同国家的遥感图像以及对应样本标签,每幅图像尺寸为1 024像素×1 024像素,空间分辨率为0.5 m。这些图像覆盖了多种地理环境和气候区,能够满足泛化性能测试。共选取78幅农村区域图像样本,经处理得到836幅256像素×256像素有效数据,再以比例9∶1划分为训练集和验证集。

图7为各模型在深度地球数据集上的测试结果。由图7中A行可知,影像中左上方存在与道路形状、颜色相近的地物造成干扰,U-Net和SegNet均出现错提;B、C、D行均为道路周边环境复杂区域,各模型均有漏提错提;E行为轮廓清晰的田间道路,除SMC_ResUnet外均出现不同程度断点;F行影像中同时存在公路和田间小路,Deeplabv3+和SegNet漏提严重,本文模型结果较为完整;G行为植被覆盖少、道路与周围环境颜色相近场景,SMC_ResUnet模型漏提最少。评价指标如表2所示,本文模型仍取得最优结果,相比Deeplabv3+模型,在MIoU、召回率和F1分数上分别提升2.50、5.97、1.68个百分点。结合召回率和精确度计算公式分析可知, SMC_ResUnet的假负例值(FN)低,漏提少。由于深度地球数据集中包含不同地区、不同气候状况的遥感影像,其特征信息更加丰富,导致少量样本训练的模型识别精度低于本文的黑龙江省嫩江市农村道路数据集。

3.4 消融试验

为验证模型中各个新增模块对道路提取的提升效果,在ResUnet50模型基础上,将CA模块(C)、条带池化模块(S)、混合池化模块(M)3个模块按7种不同组合方式进行训练及测试。为直观展示各模块有效性,将3个新增单模块模型以及组合后的模型测试结果通过梯度加权类激活图(Gradient-weighted class activation map, Grad-CAM)绘制热力图。Grad-CAM[24]可将分割区域用渐变颜色标注,色彩越明亮表示模型对此区域关注程度越高,能进一步反映不同模型对道路的敏感程度。图8为5幅差异较大的图像,其中A行中,道路被两侧树林阴影遮挡;B行中,宽路与正常农村道路差异较大;D行中,细小岔路纹理微弱,在这3种场景下,引入CA模块(C)和条带池化模块(S)的模型对遮挡、道路差异大、表现不明显道路提取上均表现较好。C行中,道路细长且周围地物复杂,引入S模块的模型表现出对水平和竖直方向道路更高的完整度和敏感性。E行中,侵蚀沟形状与颜色接近道路,易造成误提,结果显示仅引入混合池化模块(M)的模型误提最少。

各模型测试指标结果如表3所示,条带池化模块、混合池化模块、CA机制组合加入模型后对道路提取精度均有提升,且多模块组合提升效果更为显著。相较于原始模型ResUnet50,同时引入3个模块后,MIoU、召回率、精确度、F1分数分别提高3.26、1.61、2.47、1.86个百分点。从SMC_ResUnet中移除混合池化模块(M)后,精确度明显降低,表明出更多误提;移除条带池化模块(S)或移除CA注意力(C)后,召回率明显降低,表明漏提增多。综合试验结果可知,单个模块可针对性改善个别问题,但无法全面解决误提与漏提问题,而三模块组合后的SMC_ResUnet模型更优,热力图和指标结果均优于单模块模型。各模块的加入导致模型复杂度增加,混合池化模块(M)对模型参数量的增加最为明显,但也带来了更丰富的特征学习能力。

3.5 大范围农村区域道路提取与分析

为验证SMC_ResUnet模型的实用性,选取嫩江市前进镇面积约为200 km2区域,进行农村道路提取试验,试验结果如图9所示,其中红色道路为本文模型道路提取结果,选取1块道路分布较为密集的区域进行放大,并与图中紫色的三调道路进行对比。本文模型在试验区中多数道路提取结果与实际道路基本一致,少量建筑区的道路出现漏提,色彩差异小的沟渠出现误提现象。将对比区域内道路识别结果进行矢量化,利用叠加分析将矢量结果与三调道路进行交并统计,以三调数据为真值计算各项精度指标,平均准确度为97.41%,MIoU为63.76%。结果表明本文改进的SMC_ResUnet模型可在大范围快速有效地识别农村道路,能为农村道路制图、农机作业导航提供基础数据。

尽管SMC_ResUnet模型提升了高分辨率遥感影像农村道路提取性能,但在复杂场景下仍存在因遮挡导致的漏提和相似地物引起的错提问题。此外,引入改进模块虽提高了精度,但也增加了参数量,导致训练时间延长、识别效率降低。本文试验采用单一数据源,未充分利用更丰富的多源遥感数据。未来研究将重点探索轻量化模型,在保证精度的同时降低复杂度,提高处理效率,并结合多源遥感数据开展多模态网络研究,进一步提升模型识别能力,为农村道路数据获取提供高效、精准的方法。

4 结论

(1)针对农村道路颜色、纹理和结构等特点,引入条带池化模块到编码层,提升条形区域的感受野;在编码-解码层之间加入混合池化模块,防止农村区域沟、渠等相似地物干扰,同时消除条带池化的副作用;加入CA机制到每个残差单元,增强细微特征捕捉能力。利用构建的SMC_ResUnet模型,对嫩江市道路数据集识别结果的OA、MIoU、召回率、精确度、F1分数分别为98.58%、78.06%、83.40%、90.72%和85.89%。在消融试验中,单模块引入后评价精度均高于基础模型,对道路漏提、误提现象均有改善,3个模块组合精度达到最高,其中MIoU、召回率、精确度、F1分数分别提高3.26、1.61、2.47、1.86个百分点。

(2)在泛化应用试验中,SMC_ResUnet模型在深度地球道路数据集上的平均准确度、平均交并比、召回率、精确度和平均F1分数分别为98.42%、61.64%、76.03%、76.28%、75.57%,优于对比模型;嫩江市200 km2范围遥感影像测试结果表明,平均准确度达到97.41%,证明本文模型具有较好的泛化性和实用性。

[1] 顾铮鸣, 金晓斌, 杨晓艳, 等. 基于无人机遥感影像监测土地整治项目道路沟渠利用情况[J]. 农业工程学报, 2018,34(23):85-93.GU Zhengming, JIN Xiaobin, YANG Xiaoyan,et al. Monitoring roads and canals utilization condition for land consolidation project based on UAV remote sensing image[J]. Transactions of the CSAE, 2018, 34(23): 85-93. (in Chinese)

[2] 吴亮, 胡云安. 遥感图像自动道路提取方法综述[J]. 自动化学报, 2010,36(7):912-922.WU Liang, HU Yun’an. A survey of automatic road extraction from remote sensing images[J]. Acta Automatica Sinica, 2010, 36(7): 912-922. (in Chinese)

[3] 梁茜亚, 王卷乐, 李朋飞, 等. 基于GF-1影像的蒙古高原干旱半干旱地区自然道路提取——以蒙古国古尔班特斯苏木为例[J]. 自然资源遥感, 2023,35(2):122-131.

[4] DAI J, MA R, AI H. Semi-automatic extraction of rural roads from high-resolution remote sensing images based on a multifeature combination[J]. IEEE Geoscience and Remote Sensing Letters, 2022,19:1-5.

[5] 戴激光, 王杨, 杜阳, 等. 光学遥感影像道路提取的方法综述[J]. 遥感学报, 2020,24(7):804-823.DAI Jiguang,WANG Yang,DU Yang,et al. Development and prospect of road extraction method for optical remote sensing image[J]. Journal of Remote Sensing,2020,24(7): 804-823. (in Chinese)

[6] LIU X, DENG Z, YANG Y. Recent progress in semantic image segmentation[J]. Artificial Intelligence Review, 2019,52(2):1089-1106.

[7] 吕雅慧, 张超, 郧文聚, 等. 高分辨率遥感影像农田林网自动识别[J]. 农业机械学报, 2018,49(1):157-163.LÜ Yahui, ZHANG Chao, YUN Wenju,et al. Automatic recognition of farmland shelterbelts in high spatial resolution remote sensing data[J]. Transactions of the Chinese Society for Agricultural Machinery,2018,49(1):157-163. (in Chinese)

[8] 袁翠霞, 赵春江, 任艳敏, 等. 基于U-Net网络的高标准农田道路识别方法[J]. 农业机械学报, 2023,54(5):163-169, 218.YANG Cuixia, ZHAO Chunjiang, REN Yanmin,et al. Recognition method of high-standard farmland road based on U-Net[J]. Transactions of the Chinese Society for Agricultural Machinery,2023,54(5):163-169,218. (in Chinese)

[9] ALSHEHHI R, MARPU P R. Hierarchical graph-based segmentation for extracting road networks from high-resolution satellite images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017,126:245-260.

[10] ZHANG Z, LIU Q, WANG Y. Road extraction by deep residual U-Net[J]. IEEE Geoscience and Remote Sensing Letters, 2018,15(5):749-753.

[11] ZHOU R, YU H, CHENG Y, et al. Quantum image edge extraction based on improved Prewitt operator[J/OL]. Quantum Information Processing, 2019.http:∥doi.org/10.1007/s11128-019-2376-5.

[12] ABDOLLAHI A, PRADHAN B, ALAMRI A. RoadVecNet: a new approach for simultaneous road network segmentation and vectorization from aerial and google earth imagery in a complex urban set-up[J]. Giscience &Remote Sensing, 2021,58(7):1151-1174.

[13] YU F, KOLTUN V, FUNKHOUSER T. Dilated residual networks[C]∥30th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2017), 2017:636-644.

[14] QI Y, HE Y, QI X, et al. Dynamic snake convolution based on topological geometric constraints for tubular structure segmentation[C]∥2023 IEEE/CVF International Conference on Computer Vision, ICCV, 2023:6047-6056.

[15] SHIT S, PAETZOLD J C, SEKUBOYINA A, et al. clDice—a novel topology-preserving loss function for tubular structure segmentation[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021:16555-16564.

[16] QIN Q, HU X. The application of attention mechanism in semantic image segmentation[C]∥Proceedings of 2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC 2020), 2020:1573-1580.

[17] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020,42(8):2011-2023.

[18] WOO S, PARK J, LEE J, et al. CBAM: convolutional block attention module[C]∥Computer Vision-ECCV 2018, 2018:3-19.

[19] HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021:13708-13717.

[20] HOU Q, ZHANG L, CHENG M, et al. Strip pooling: rethinking spatial pooling for scene parsing[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020:4002-4011.

[21] KINGMA D, BA J. Adam: a method for stochastic optimization[C]∥International Conference on Learning Representations, 2014.

[22] CHEN L, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]∥Computer Vision-ECCV 2018,2018:833-851.

[23] RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[J]. Medical Image Computing and Computer-Assisted Intervention, 2015,9351:234-241.

[24] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(12):2481-2495.

[25] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[J]. International Journal of Computer Vision, 2020,128(2):336-359.