论文引用格式:Liu H and Wang X L. 2021. Kemote nsing image gmentation model bad on an adaptive receptive field mechanism. Journal of Image and Graphics,26(02) :0464-0474(刘航,汪西莉.2021.自适应感受野机制遥感图像分割模型.中国图象图形学报,26(02):0464-0474)[ DOI : 10. 11834/jig. 200092]
464E-mail: ***********
Website: www.cjig
Tel: ************中国图象图形学报JOURNAL OF IMAGE AND GRAPHICS
©中国图象图形学报版权所有
中图法分类号:TP391 文献标识码:A 文章编号:1006-8961(2021 )02-0464-11
自适应感受野机制遥感图像分割模型
刘航,汪西莉
陕西师范大学计算机科学学院.西安710119
摘要:目的遥感图像中存在大小、形态不一的目标,增加了目标分割任务的困难性。感受野代表了特征图中每 个像素对应输入图像的区域,若感受野与目标形状的契合度较髙,则特征图中包含的目标特征更加完整,有利于分 害叽在现有的分割方法中,通常采用的是正方形的感受野,而遥感图像中目标形状多变,导致感受野无法较好地契 合目标形状,在提取目标特征时会引入过多的无用特征,从而影响分割精度。为此,本文提出基于自适应感受野机 制的遥感图像分割模型。方法在编码一解码网络结构的基础上,引入自适应感受野机制.首先在编码器上提取 不同大小和宽高比的感受野特征,然后在特征融合时使用通道注意力模块自适应地获取通道权重,通过加权强化 与目标形状契合度高的感受野的特征,弱化与目标形状契合度低的感受野的特征,在保留目标特征的同时减少背 景特征的干扰,进而提升模型的分割精度 结果 在Inria Aerial Image Labeling 数据集与DeepGlohe Road Extraction 数据集上进行实验并与相关方法比较.在两个数据集上的平均交并比分别为76.1%和61.9%,平均F1值分别为 86. 5%和76. 5%。结论本文模型能够提取不同形状感受野的特征,并白适应地获取通道权重,使模型能提取更 加完整的目标特征,从而提升目标分割效果
关键词:遥感图像;卷积神经网络(CNN);图像分割;自适应感受野机制(ARFM);通道注意力模块(CAM)
Remote nsing image gmentation model bad on
an adaptive receptive Held mechanism
Liu Hang , Wang Xili
School of Computer Science 3 Shaanxi Normal I nirersity, Xi'an 710119, China
Abstract : Objective Remote nsing image gmentation is a technique for gmenting the target of interest. In the field of deep learning, convolutional neural networks ( CNNs ) are typically ud to extract image features and then classify each pixel of the image. Remote nsing image gmentation has a wide range of applications , including environmental monito ring ,urban construction , and crop classification. It is highly significant in the extraction and analysis of image information. However , high-resolution remote nsing images have a large number of targets with different shapes and sizes , and thus, many difficulties are encountered in achieving image gmentation. A receptive field is an important attribute of CNNs, and the matching degree between the receptive field and target size is related to the completeness and robustness of the extracted target features. If the receptive field matches the target shape well , then the target features contained in the feature map will be complete ; otherwi , the feature map will contain many uless features that will interfere with the gmentation task. In 收稿日期:2020-03-16;修回日期:2020-05-27 ;预印本日期:2020-06-03
基金项目:国家自然科学基金项目(41471280. 61701290,61701289)
Supported by :National Natural Stience Foundation of China (41471280. 61701290,61701289)
465第26卷/第2期/2021年2月刘航,汪西莉/自适应感受野机制遥感图像分割模型
existing methods,the square receptive field is ud to extract features.However,the shape of targets in remote nsing
images are different,and thus,the square receptive field cannot fit the shape of the target well.If the mismatched receptive
field is ud to extract target features,then uless features will interfere with gmentation.To solve this problem,this
study propos a remote nsing image gmentation model(RSISM)bad on an adaptive receptive field mechanism
(ARFM),referred to as RSISM-ARFM hereafter.Method RSISM-ARFM can extract receptive fields with different sizes
and ratios while simultaneously channel weighting the features of different receptive fields during feature fusion.In this
manner,the receptive field features that match the target shape can be strengthened;otherwi,they are weakened,reduc
ing the interference of uless features while retaining target features.RSISM-ARFM us an encoder-decoder network as its
backbone network.This backbone network consists of an encoder and a decoder.The encoder is ud to extract basic con
volution features while reducing the size of the feature map to extract deep mantic information.The extracted features in
the shallow layer of the encoder contain rich detailed information,such as target location and edge.Meanwhile,the extrac
仿拂
ted features in the deep layer of the encoder contain mantic information that can help the model identify the target better.
To fu the two parts of information,the decoder concatenates feature maps at different layers to improve the feature extrac
tion capability of the model.On the basis of the backbone network,this study introduces an ARFM.First,the features of
different receptive fields are extracted from the encoder.Then,the channel attention module is ud to calculate the
dependency relationship among the channels of the feature map to generate channel weights.Finally,the feature maps of
different receptive fields are weighted.After the aforementioned operations,the model can adaptively adjust the relationship
among different receptive fields and lect appropriate receptive fields to extract the features of the target.Result In this
study,we conducted ablation and comparative experiments on the Inria Image Labeling and DeepGlobe Road Extraction
datats.Given the large size of the original images in the datats,they cannot be ud directly in the experiments.There
fore,the training and test ts were cropped to256x256pixel images during the experiments.The model was trained first
using the training t and then tested using the test t.To verify the effectiveness of RSISM-ARFM,we conducted ablation
and comparative experiments using the two aforementioned datats.Simultaneously,we ud different evaluation indexes in
the experiments to evaluate the gmentation performance of the model from multiple perspectives.Experimental results
show that the propod method can effectively improve the gmentation accuracy of targets with different shapes.The g
mentation result of RSISM-ARFM is the clost to the labeled image,and the details of the targets are the clearest.The
interction over union on the two datats reaches76.1%and61.9%,and the average Fl score reaches86.5%and
76.5%,respectively.Segmentation performance is better than that of the comparison model.Conclusion The model pro
pod in this study adds an ARFM bad on an encoder-decoder network.It extracts the features of the receptive fields of
different target shapes and sizes and then us the channel attention module to perform channel weighting adaptively on the
features during the feature fusion process.Accordingly,the model extracts complete target features and reduces the intro
duction of uless features,improving gmentation accuracy.
Key words:remote nsing image;convolutional neural network(CNN);image gmentation;adaptive receptive field
mechanism(ARFM);channel attention module(CAM)
o引言
仔细地什么遥感图像目标分割作为图像信息提取与研究的基础,对图像解译具有重要意义。由于图像中存在大量不同形状的目标,因此实现目标分割具有较大困难。全卷积网络(fully convolutional networks, FCN)(Long等,2015)采用卷积与反卷积的网络结构,通过卷积层提取图像的卷积特征,反卷积层恢复特征图的尺寸,使得卷积神经网络成功地应用于图像分割领域。针对目标形状、大小不一的问题,目前的解决思路主要有两类。第1类方法提取不同感受野的特征,将融合后的特征用于分割任务。Inception结构(Szegedy等,2015)通过不同大小的卷积核与池化操作提取不同感受野的特征,并融合这些特征以提升分割精度。非对称卷积(Szegedy等, 2016)使用不同大小的卷积核提取特征,增加特征的多样性。Xception模块(Chollet,2017)使用深度分离卷积核提取不同感受野的特征,并对特征进行融合。ASPP(atrous spatial pyramid pooling)(Chen
466
中国图象图形学报
」OURNAL OF IMAGE AND GRAPHICS Vol.26.No.2.Feb.2021
等,2018)使用多个不同比率的空洞卷积以提取不同感受野的特征,并将融合后的特征用于预测。但是
空洞卷积的比率过大,会丢失大量的细节信息。HDC(hybrid dilated convolution)(Wang等,2018)重新设置了模型中空洞卷积核的空洞比率,从而提升模型对不同尺寸目标的分割性能。MS-DenUNet (Lu等,2019)采用U-Net作为主干网络,并在编码器的末端使用ASPP提取较大感受野的特征。第2类方法使用注意力模块强化目标的特征以提升模型的分割效果。RANet(residual attention network) (Wang等,2017)、SENet(Hu等,2018)、SKNet(Li 等,2019)、RSANet(刘航和汪西莉,2020)采用了注意力模块对特征图进行处理,建模特征之间的关联信息,从而增加有效特征的占比,减小无效特征的干扰。虽然这些注意力机制在一定程度上提升了模型的精度,但是通常未充分考虑到不同宽高比感受野的特征之间存在的关联信息。
第1类方法提取了不同大小感受野的特征,提升了分割精度,但是存在以下缺点:1)在特征提取方面存在不足。如图1(a)所示,这类方法的卷积核形状均为正方形,而目标为矩形,所以只能提取正方形感受野的特征。而遥感图像中目标的形状是多变的,正方形的感受野无法较好地契合目标形状,可能引入过多的背景特征,影响分割精度。2)在特征融合方面存在不足。这类方法直接采用通道拼接或者像素相加的方式融合不同感受野的特征,同等对待不同感受野的特征,没有充分考虑不同宽高比感受野对同一目标重要性的不同。虽然也有方法采用通道注意力模块对特征图进行通道加权,强化有效特征,弱化无效特征,但它们大多基于正方形的感受野,与目标的形状匹配不好,并且没有充分考虑到不同感受野特征之间的关联性,引入了更多的背景特征,导致错误地强化无用特征,影响分割精度。
为此,本文提出基于自适应感受野机制的遥感图像分割模型RSISM-ARFM(remote nsing image gmentation model bad on adaptive receptive field mechanism)o针对第1类方法存在的问题,本文在模型中使用非对称卷积(Szegedy等,2016)提取特征,并将不同的卷积串联在一起,以获得正方形和不同比率的矩形感受野,提升感受野与目标形状的契合度。如图1(b)所示,与目标匹配的感受野对应的特征图中包含更完整的目标信息和更少的背景干扰。同时,采用了通道注意力模块,在特征融合过程中对不同感受野的特征图进行通道加权处理,强化与目标形状契合度高的感受野的特征,弱化其他感受野的特征。针对第2类方法中存在的问题,施加的通道注意力模块首先将不同宽高比感受野的特征图作为输入,然后计算不同感受野特征之间的关联性信息,并对不同的特征施加合适的权重,提高RSISM-ARFM模型的特征提取能力以应对遥感图像中不同形状的目标。
(a)正方形感受野(b)矩形感受野
图1不同感受野与目标的契合程度
Fig.1The degree of matching between different receptive fields and targets ((a)square receptive field;(b)recta n gular receptive field)
1RSISM-ARFM模型
1.1RSISM-ARFM网络结构
图像分割是像素级的分类任务,目标的位置、边缘等细节信息在图像分割中起着非常重要的作用。而现有的图像分割模型在提取目标特征时通常使用大量的下采样操作,虽然可以帮助模型获得更大范围内的语义信息,但是随着特征图尺寸的减小,会丢失许多细节信息,影响分割精度。为了保留更多浅层的细节信息,本文的主干网络(baline)在Link-Net(Chaurasia和Culurciello,2017)的基础上构建,
467
岳阳楼记读后感
第26卷/第2期/2021年2月刘航,汪西莉/自适应感受野机制遥感图像分割模型只保留前3次下采样的部分,从而保证后续的操作 都在较大分辨率的特征图上进行。同时,因为编码 器与解码器的感受野相差较大,所以在解码器部分
采用通道拼接的方式融合特征信息。为了提升模型 对不同尺寸目标的分割精度,本文在主干网络的编
码器与解码器之间加入自适应感受野机制(adaptive receptive field mechanism , ARFM ),得到 RSISM- ARFM 模型。
Baline 与RSISM-ARFM 的结构如图2所示。
RSISM-ARFM 模型主要包含编码器与解码器两部 分。编码器负责从输入的遥感图像中提取特征;解
码器负责恢复特征图的分辨率,并在模型的最后获 得各像素的预测类别。为了更加精准地提取不同 形状目标的特征,RSISM-ARFM 模型在编码器与 解码器之间加入了自适应感受野机制。该机制首 先提取不同形状感受野的特征,然后对这些特征
进行通道加权,强化与目标尺寸契合度高的感受 野的特征。解码器
编码器-conv7><7最大池化层‘
(a) baline
第21的英文
编码器conv7><7
3最大池化层/残差单元
AR.FM
喜剧英文
ARFM ARFM 自适应感受野^机制
JconvlM
©通道拼接G)特征融合deconv 3x3 + conv 3X 3 + conv 2x2 + softmax大同有什么好玩的地方
(b) RSISM-ARFM
图2模型结构
Fig. 2The structure of model ( (a) baline ; (b) RSISM-ARFM)
RSISM-ARFM 的编码器首先是步长为2、卷积 核大小为7 x7的卷积层和最大池化层,接下来使 用残差单元(He 等,2016)提取特征,该单元使用
残差连接的方式将浅层的特征传递到深层,增强 了编码器的特征提取能力。解码器由反卷积层与 卷积层组成,采用通道拼接的方式融合自适应感 受野机制的输出特征图并提升特征图的尺寸。最 终在解码器的末端使用softmax 层得到预测结
果图。
1.2自适应感受野机制(ARFM)为了更加精准地提取不同形状目标的特征, 在模型的编码器与解码器之间施加了两次 ARFM,分别对编码器中两个残差单元的输出特 征图进行处理,提取不同感受野的特征。ARFM
468
中国图象图形学报
JOURNAL OF IMAGE AND GRAPHICS Vol.26,No.2,Feb.2021
的结构如图3所示,主要分为特征提取阶段(fea-ture extraction stage,FES)和特征融合阶段(feature fusion stage,FFS)o在特征提取阶段,采用非对称卷积(Szegedy等,2016)提取不同比例感受野的特征;在特征融合阶段,施加通道注意力模块对不同感受野的特征图进行通道加权处理,使得模型更加侧重与目标形状契合度高的感受野的特征。
特征融合阶段
特征提取阶段
蔷薇花期图3自适应感受野机制的结构
Fig.3Structure of adaptive receptive field mechanism
1-2.I特征提取阶段
在特征提取阶段,采用了并行的分支结构提取特征,其中前4个分支使用了非对称卷积(Szegedy 等,20
16)和分支间的连接以获得不同形状和大小的感受野。具体而言,使用1xl的卷积减少输入特征图E的通道数并送入6个分支中。分支1〜4采用空洞比率分别为2、3、4、5的非对称卷积。这种卷积的原理如图4(a)所示,原来空洞比率为仁大小为3x3的卷积层是在正方形区域内提取特征。而非对称卷积(Szegedy等,2016)则是将这个卷积过程分解为两步,先使用1x3的卷积层提取横向区域的特征,再使用3x1的卷积层提取纵向区域的特征。通过这两个卷积层串联操作可以提取正方形区域内的特征,从而代替3x3的卷积操作。因为1x3与3x1的卷积能够分别在横向与纵向上扩大感受野(如图4(b)所示),所以模型使用分支间的连接将上一级分支中第1个卷积层与下一级分支中第1个卷积层连接,同时,将上一级分支中第2个卷积层与下一级分支中的两个卷积层分别连接。最终,4个分支中每条连接路径都对应一种比率的矩形感受野。当连接路径中相同空洞比率的1x3与3x1的卷积成对出现时,生成的感受野为正方形;否则,得到宽高比不同的感受野。每条连接路径中感受野的宽高比计算如下:
DARFM的输入特征图E的感受野。特征图E 来自于编码器,感受野均为正方形,边长2,可以表示为
Z-1
J-厶一1+(£-1)x耳(1)
i=i沈大高速
式中,心与I-分别是编码器中第Z与z-1层对应的感受野边长为编码器第Z层中卷积核或者池化的大小,5,.为第i层中卷积核或者池化的步长,最终,编码器中第Z层得到的感受野大小为们x l z。
2)ARFM中一条路径上感受野的大小。假如该连接路径有m个3x1的空洞卷积层,"个1x3的空洞卷积层,k为该连接路径中卷积层的总数,k= m+n o
则每条连接路径中感受野的高h m可表示为
m—1
为”=+(2X d”)x⑵
i=I
式中代表该连接路径中第m-1个3x1的卷积层对应感受野的高,h0是输入特征图对应的感受野边长,d m代表该连接路径中第m个3x1卷积层的空洞比率,若该卷积层在第丿个分支上,则d”= j+1°s,代表第i层卷积的步长,在这里每层卷积的