基于全局卷积神经网络的复杂图像语义分割方法

更新时间:2023-06-23 15:10:04 阅读: 评论:0

收稿日期:2020年7月10日,修回日期:2020年8月21日
基金项目:国家自然科学基金项目(编号:61802109);河北师范大学科技类(创新)基金项目(编号:L2018K02)资助。作者简介:张丹,女,硕士研究生,工程师,研究方向:人工智能和水声工程。
1引言
高速图像处理在海军武器装备研发、试验和应
用环节中的作用越来越重要,对图像处理精准度的
鲜虾鸡蛋羹要求也越来越高,目前海军的现状是高速图像处理能力不足,尤其是水下观测装备获取的视频图像、深度与照度数据等信息存在模糊、噪声大、对比度下降、颜色失真等诸多问题,难以适应日益发展的
基于全局卷积神经网络的复杂图像语义分割方法
丹1
爽2
张晓娜2
光3
京2
(1.91550部队第43分队大连
116023)(2.河北师范大学计算机与网络空间安全学院
石家庄050024)
(3.海军大连舰艇学院教学考评中心
大连
116018)
语义分割的场景图像易受不同光照强度以及类别多样性的影响,尤其是在复杂的图像分割任务中,由于不同
物体间的像素值差异过大或过小,造成分割图像的纹理和几何特征缺失,即产生欠分割、过分割现象。针对上述问题,利用深度卷积神经网络,研究基于全局卷积神经网络的复杂图像语义分割方法。首先,提出多尺度残差空间金字塔池化模块,在网络中获取到更加稠密和完备的图像低层特征[1];
其次,网络考虑全局信息,提出基于注意力机制的解码器模块,有效捕获图像像素的纹理特征、颜色特征和上下文信息,从而得到完整的分割结果。该方法在Camvid 数据集上分割精确度达68.5%(MIoU )且在Cityscapes 数据集上分割精度达78.3%。
关键词
语义分割;欠分割;过分割;深度卷积神经网络;空间金字塔池化;注意力机制
中图分类号
TP751
DOI :10.3969/j.issn.1672-9730.2021.01.019
A Method for Semantic Segmentation of Complex Images Bad on
Global Convolutional Neural Network
ZHANG Dan 1
LIU Shuang 2
ZHANG Xiaona 2SHI Guang 3
LIU Jing 2
(1.Unit 43,No.91550Troops of PLA ,Dalian
116023)
(2.College of Computer and Cyber Security ,Hebei Normal University ,Shijiazhuang
050024)
(3.Department of Evaluation Centre ,Dalian Naval Academy ,Dalian
116018)
Abstract
Semantic gmented scene images are susceptible to different light intensities and category diversity ,especially in
complex street scene gmentation tasks ,becau the pixel values between different objects are too large or too small ,resulting in
the lack of texture and geometric features of the gmented image.That is under-gmentation and over-gmentation.Aiming at the above problems ,a deep convolutional neural network is ud to study the mantic gmentation of complex streetscape images bad on the global convolutional neural network.First ,a multi-scale residual spatial pyramid pooling module is propod to obtain
more den and complete low-level image features in the network.Second ,the network considers global information and a decoder module bad on the attention mechanism is propod to effectively capture the texture of image pixels.Features ,color features and contextual information are obtained to get a complete gmentation result.This method has a gmentation accuracy of 68.5%
(MIoU )on the Camvid datat and has a gmentation accuracy of 78.3%on the Cityscapes datat.Key Words
mantic gmentation ,under-gmentation ,over-gmentation ,deep convolutional neural network ,spatial pyr ⁃
amid pooling ,attention mechanism
Class Number
TP751
2021年第1期舰船电子工程
武器试验鉴定需要,严重影响装备效能的发挥。而基于生物视觉计算的端到端多尺度神经网络复原技术是解决图像模糊、噪声等问题的有效手段。
图像语义分割是计算机视觉方向中的研究热点之一[2],在各领域都有着广泛的应用,例如真三维显示、无人驾驶以及辅助医疗等领域都起着举足轻重的作用[3]。近年来,随着深度学习的快速发展,卷积神经网络(Convolutional Neural Network,
CNN)逐渐成为图像分割领域中的核心方法,越来越多的研究者基于此提出不同的语义分割神经网络模型[4]。但是,深入研究当前所使用的语义分割方法后发现在分割领域仍存在着众多难题。例如,现有分割方法对于复杂图像的分割中存在几何特征缺失、纹理特征不明显等问题。分析原因为受周围环境的影响,图像中所属同一类别物体,像素值差异过大,造成过分割;图像中不同类别之间的像素值差异过小,将不同类别的物体分割成同一类别物体,造成欠分割。如图1(a)、(b)中白色
框所示,水中的鱼与背景石头的颜色纹理相似,导致分割时将石头错分为鱼,此为过分割现象;如图1(c)、(d)中白色框所示,分割目标鱼与背景水草的颜色像素值相近,造成鱼尾部分分割不完全,此为欠分割现象。本文提出基于全局卷积神经网络的复杂图像语义分割方法,有效解决复杂图像分割过程中的欠分割和过分割问题。本文的创新点如下。
路由管理1)提出多尺度残差空间金字塔池化模块(R-ASPP),通过加入残差块结构,增强在金字塔顶端获取到的几何特征,以及在金字塔底端获取到的纹理特征。在获取多尺度特征的同时,也获得更为丰富的几何和纹理特征,从而可有效避免因像素值差异过大或者过小造成的过分割和欠分割问题。
2)提出基于注意力机制的解码器模块(AT-Decoder),将低层次细节特征信息和高层次语义特征信息有效融合在一起。由于在复杂图像中,存在着细小物体的分割问题,随着网络的深入,这些物体往往易被错分。在解码器端得到全局信息,可尽可能多地保留细小物体的几何和纹理特征。因此,基于注意力机制的解码器模块也可有效避免分割过程中出现的过分割和欠分割问题。
2相关工作
近年来,卷积神经网络在图像语义分割任务中的作用举足轻重。Long等[5]经过长期的研究和分析,在深度卷积神经网络(Deep Convolutional Neu⁃ral Network,DCNN)的基础上提出了全卷积神经网
络(Fully Convolutional Network,FCN)。FCN网络使用双线性插值的反卷积进行上采样,使卷积池化后提取到的特征恢复为原输入的相同大小。因此,
FCN网络可以接受任意大小的输入图像。此外,FCN网络中还采用了跳远连接,改善了由上采样造成的特征粗糙问题,有效提高了基于区域的分割精确度。FCN的出现为图像语义分割方法的研究提
供了新思路。
(a)原图(c)
一日十回
原图
(b)过分割示意图(d)欠分割示意图
图1过分割、欠分割示意图
Badrinarayanan等[6]在2015年提出了基于编码-解码框架的SegNet网络模型。虽然SegNet网络中的多层最大池化和下采样操作因其平移不变性可以在分割任务中有较好的鲁棒性,但却导致了特征图大小和空间信息的损失。因此,SegNet在解码过程中采用最大池化层指数,有效改善了低分辨率问题。
其次,为了获得更多的全局信息,SegNet 加深了网络层数。但由于SegNet上采样的层数较多,因此,计算效率与FCN相比并不高。
在语义分割网络中,池化操作虽然增大了感受野,但同时也降低了特征图的分辨率。因此,Fish⁃er Yu等[7]提出空洞卷积(又名扩张卷积,Dilated Convolution)。空洞卷积向卷积层中引入了一个称为“扩张率”的新参数,该参数定义了卷积核处理数据时各值的间距,在不降低空间维度的前提下增大了相应的感受野指数。但其卷积结果之间没有相关性,易造成局部信息丢失,从而影响分割结果。
Google团队提出的Deeplab系列不断提升分割精度,Deeplabv1网络[8]通过结合深度卷积神经网络的最后一层响应和一个全连接条件随机场(CRF)来解决深度网络的定位效果差问题。Deep⁃labv2[9]网络提出了在空间维度上的金字塔型空洞池化模块(Atrou Spatial Pyramid Pooling,ASPP)。ASPP由不同扩张率的空洞卷积组成多尺度处理模块,从而得到更为精确的分割结果。Deeplabv3[10]
83
总第319期
网络改进了ASPP模块,增加了1×1卷积和全局平均池化部分,引入了全局特征。随后,2018年提出
的Deeplabv3+[11]网络在Deeplabv3的基础上,通过增加简单有效的解码模块精细分割结果,尤其在分割物体的边界部分,分割效果有明显改善。此外,
Deeplabv3+中进一步使用Xception模型和深度可分卷积(Depthwi Separable Convolution),并且结合ASPP和一个简单的解码模块得到一个更快、更强的编-解码网络框架,但计算量也随之增大。
Zhao等[12]提出的PSPNet在FCN算法的基础上通过全局均值池化操作(Global Average Pooling)和特征融合操作,从而引入更多的上下文信息。此外,还引用基于ResNet的深度监督网络添加辅助代价函数,在整个网络中两个代价函数共同优化权重等参数,加快了模型的收敛速度,实现了更为精准的分割结果。
Fu等[13]在2019年提出了一种双重注意力网络(DANet)来自适应地集成局部特征及其全局依赖关系。DANet网络使用位置注意力模块来学习特征的空间相互依赖性,并设计通道注意力模块来模拟通道相互依赖性。DANet网络通过在局部特征上建模丰富的上下文依赖关系,显著改善了分割结果。
综上,使用深度学习的图像语义分割方法在分割任务中都有较好的表现。但由于分割场景的复杂多样性,并不能在每个场景中都达到较高的精度[14]。基于上述相关工作,本文提出基于全局卷积神经网络的复杂图像语义分割方法,以有效解决在复杂街景图像分割过程中,出现的欠分割和过分割问题。
3复杂街景图像的语义分割方法现有图像分割方法对于复杂图像数据的分割还存在着许多不足之处。首先,由于DCNN的局限性,在低级特征图中的语义信息相对较少,但可以准确地表示出对象的位置信息;在高级特征中语义信息丰富,但对于位置信息表现不突出。因此,在复杂图像分割的过程中,易出现分割物体的几何、纹理信息缺失,即造成过分割和欠分割现象。
针对上述问题,本文提出了基于全局卷积神经网络的复杂图像语义分割方法。网络结构示意图如图2所示,网络整体为编码-解码框架,其中编码模块中主要包括DCNN部分和R-ASPP部分,解码模块中主要包括AT-Decoder部分。DCNN可以有效提取到包含位置信息的低级特征,R-ASPP可以最大程度上提取到包含几何和纹理信息的高级语义特征,AT-Decoder可以有效融合低级位置特征和高级语义特征,最后进行4倍上采样还原为原输入图像大小。网络的关键层如表1
所示。
图2网络示意图
表1Key layers of the network
Input(dimension)
Image(360×480×3)
R-ASPP
D fm(23×30×2048)
fm11(23×30×256)
D fm,fm12
D fm(23×30×2048)
fm21(23×30×256)
D fm,fm22
D fm(23×30×2048)
fm31(23×30×256)
D fm,fm32
D fm(23×30×2048)
fm41(23×30×256)
D fm,fm42
D fm(23×30×2048)
fm1,fm2,fm3,fm4,fm5
AT-Decoder
F a(23×30×256)
D fm(23×30×2048)
DF a(90×120×256)
DF1(90×120×256)
DD fm(90×120×48)
DD1(90×120×256)
DF a,DD fm
DF2,DC2
B1,DD2
B2,DC2周记300字
B4(90×120×256)
Layer tting
Xception-65
1×1×256
海南中线3×3×256
Add
3×3×256,rate=6
3×3×256
Add
3×3×256,rate
=12
3×3×256
Add
3×3×256,rate
=24
3×3×256
Add
Global average
pooling
Concat,1×1×256
Bilinear
Bilinear,1×1×48
3×3×256
Softmax
Channel Attention
Softmax
Concat,3×3×256
Multiply
Multiply
Add,3×3×256
Bilinear
Output(dimension)
D fm
fm11
fm12(23×30×256)
fm1(23×30×256)
fm21
fm22(23×30×256)
fm2(23×30×256)
fm31
fm32(23×30×256)
fm3(23×30×256)
fm41
fm42(23×30×256)
fm4(23×30×256)
fm5(23×30×256)
F a(23×30×256)
DF a(90×120×256)
DD fm(90×120×48)
DF1
DF2(90×120×256)
DD1
DD2(90×120×256)
DC2(90×120×256)
B1(90×120×256)
B2(90×120×256)
B4(90×120×256)
B(360×480×3)在图像语义分割网络中,输出图像的大小要和输入图像的大小一致,但网络中的池化操
作往往在增大感受野的同时降低图像的分辨率。通常,网络中采取的方法大多数为上采样操作(Upsample)。
张丹等:基于全局卷积神经网络的复杂图像语义分割方法84
2021年第1期舰船电子工程但是,上采样操作无法还原由池化操作导致的一些细节信息的损失。为了减小这种损失,Fisher Yu 等[6]提出了空洞卷积,其公式为
y []i =åk
x []i +r ×k w []
k (1)
通过空洞卷积操作所得到的某一层的结果中,邻近的像素是从相互独立的子集中卷积得到的,相互之间缺少依赖以及局部信息丢失而易产生网格效应,如图3所示。这对于基于像素级的语义分割
任务来说是一个巨大的挑战。
图3空洞卷积出现的网格效应
Goolge 团队提出的的Deeplabv3+[11]方法中
ASPP 模块可尽量避免由空洞卷积产生的网格效应。ASPP 在特征顶部到底部映射过程中包含五个分支,其中包括四种不同采样率的空洞卷积和一个
全局平均池化分支。不同采样率的空洞卷积可以有效捕获多尺度信息,并利用全局平均池化获取全局信息。
通常,图像语义分割网络的解码器端得到的为高级语义信息,即图像的几何和纹理信息,可为得到精确图像分割结果提供有效帮助[15]。为了获得足够的高级语义几何和纹理信息,基于ASPP 模块,本文提出了R-ASPP 方法,在除全局平均池化分支外的四个空洞卷积分支中分别加入了残差块,每个残差块由普通的3×3卷积和跳远连接构成。R-ASPP 结构图如图4所示。其中,D fm 为DCNN 的输出特征图,fm 1、fm 2、fm 3、fm 4、fm 5为每个分支特征图的输出,fm 11、fm 21、fm 31、fm 41为四个分支中中间层
特征图的输出,F a 为R-ASPP
部分的输出。
图4
R-ASPP 模块结构
在R-ASPP 中包含五个不同尺度特征图的输
出,不同尺度的特征图具有不同的特征。在R-ASPP 中,最大的特征图fm 5上可以获得更多关于小目标物体的边缘信息,fm 4包含更多的轮廓信息,从fm 3到fm 1包含更多的全局信息。因此,R-ASPP 可有效获取整个网络中高层次的语义信息。
在深度学习卷积神经网络中,设计解码器模块常用于在网络中所学到的图像特征大小和维度的恢复,以得到与原输入图像大小相同的分割图像并恢复目标分割细节[16]。为更好地恢复更多的目标分割细节,本文提出了基于注意力机制的解码器模块(AT-Decoder )。具体网络结构如图5中所示,图5(a )为AT-Decoder 的总体结构,其中基于高级语义特征的通道注意力模块(Channel Attention )结构如图5(b )
所示。
(a )为AT-Decoder
模块整体结构
(b )为图(a )中的Channel Attention 部分
图5AT-Decoder 模块结构
AT-Decoder 模块由三个分支组成,分别为DF 、
DC 和DD 分支。第一个分支DF 的输入为在解码器
中DCNN 学到的细节及位置信息,使用3×3卷积操作构造空间注意力突出重要的细节位置特征。
85
总第319期
第二个分支DC的输入为解码器DCNN的输出
DF a和解码器最后的输出DD fm两个特征在通道维
度的拼接。该分支考虑有效融合低级细节信息和
高级语义信息,经过3×3卷积提取到包含准确位置
信息和完整的几何、纹理信息特征。
第三个分支DD的输入为编码器模块的输出,
即高层语义特征DD fm。为了保留更多的语义信息,
在解码器中设计了基于通道的注意力模块,目的在
于关注特征图通道之间的关系,如图5(b)所示。
该模块由两个子分支构成,分别为平均池化和最大
池化分支。平均池化可以通过全局描述特征,对特
征图中的每一个像素点都有反馈,而最大池化在进
行梯度反向传播计算时,只有特征图中响应最大的
像素点有梯度的反馈,从而可以作为一个补充[17]。
随后,在平均池化和最大池化后补充[17]。随后,在
平均池化和最大池化后边各加入全连接层,分别融
合各通道的特征图信息,最后,两个子分支进行融
合,从而得到更加关注信息量最大的通道特征。
DD
居然的拼音
fm1=1
H´W
å
i=1
H
å
j=1
W
DD
fm
(i j)(2)
DD
fm3=max
iÎH
jÎW
DD
fm
(i j)(3)
大的同义词
DD
1=w
1
DD
fm1
+w
2
DD
fm3
(4)
其中,H×W表示特征图大小,DD
fm1
为全局平均池
化,DD
fm3为最大池化,w DD
fm
表示全连接。
4实验验证
4.1数据集介绍
本文所提出的图像语义分割方法可以应用于
水下图像分割中,并在实际拍摄获取到的水下图像
数据集SUIM中进行了分割验证。该数据集包括1525张训练图像和110张测试图像,其类别包括人类潜水员、水生植物、珊瑚礁等多种类别。
此外,本文方法还在公开的街景数据集Camv⁃id以及Cityscapes进行实验验证。Camvid数据集由剑桥大学标注,其中包括367张训练图像和233张测试图像,包含道路、建筑物、汽车、行人等11个类别[23]。图像中的场景涉及白天和黄昏,可对本文方法进行进一步的检验。Cityscapes数据集在2015年由奔驰公司推动发布,是目前公认的计算机视觉领域内最具权威性和专业性的图像语义分割评测数据集之一。Cityscapes关注于真实场景下的城区道路环境理解,任务难度更高且更适合于评估视觉算法在复杂街景语义理解方面的性能。Cityscapes数据集包含50个城市不同场景、不同背景、不同季节的街景,其提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。Cityscapes数据集共有fine和coar两套评测标准,前者提供5000张精细标注的图像,后者提供5000张精细标注外加20000张粗糙标注的图像,本文中采用fine评测标准。4.2评价准则
语义分割中的最重要的评价指标为平均交并比(Mean Interction Over Union,MIoU),其通过计算真实值(Ground Truth,GT)与预测分割结果之间的交并比对本文提出的网络模型进行评估。交并比IoU基于每个类别计算,所有类别的IoU求均值即为MIoU,公式如下:
MIoU=1
k+1
å
i=0
k p
ii
å
j=0
k
p
ij
j=0
k
p
ji
-p
ii
女老师和学生(5)
其中,k表示类别数量,i表示真实值,j表示预测值,p ij表示将i预测为j。
4.3实验结果
本文所提图像语义分割方法可应用于水下图像分割领域中,在SUIM数据集中的可视化分割结果如图6所示。其中,第一列为原始图像,第二列为Ground Truth,第三列为本文方法分割结果图像。由此可见,本文方法对于水下图像的分割表现优异,对于前后背景混淆物体类别以及细小结构物体类别的分
割都较为完整。除此之外,本文的网络模型还可以应用于水下目标追踪中,并在200帧的水下视频数据中进行目标跟踪实验,可视化结果如图7所示。按照从左至右的顺序分别:第1帧的分割结果、第36帧的分割结果、第73帧的分割结果、第105帧的分割结果、第140帧的分割结果以及第188帧的分割结果。本文所提方法可以准确的跟踪分割水下图像中的球形物体。
图7(a)组分割图像为过分割效果示意图。其中,每个图像中颜色框中物体本所属一类或多类物体,但由于物体本身的像素值与周围物体的像素值差异过大,出现过分割为两类或多类物体的现象。图(b)组分割图像为欠分割效果示意图。其中,每个图像中的颜色内物体由于与周围物体的像素值差异过小,将不同类别的物体欠分割成同一类别物体,造成少分现象。从图6可视化结果中可看出,本文所提方法针对复杂图像分割过程中出现的欠分割和过分割问题有明显改善。
张丹等:基于全局卷积神经网络的复杂图像语义分割方法86

本文发布于:2023-06-23 15:10:04,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1051430.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分割   图像   语义
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图