基于深度学习的显著性目标检测综述
史彩娟+,张卫明,陈厚儒,葛录录
华北理工大学人工智能学院,河北唐山063210+通信作者E-mail:****************摘
要:随着深度学习的不断发展,基于深度学习的显著性目标检测已经成为计算机视觉领域的一个研究热
点。首先对现有的基于深度学习的显著性目标检测算法分别从边界/语义增强、全局/局部结合和辅助网络三个角度进行了分类介绍并给出了显著性图,同时对三种类型方法进行了定性分析比较;然后简单介绍了基于深度学习的显著性目标检测常用的数据集和评估准则;接着对所提基于深度学习的显著性目标检测方法在多个数据集上进行了性能比较,包括定量比较、P-R 曲线和视觉比较;最后指出现有基于深度学习的显著性目标检测方法在复杂背景、小目标、实时性检测等方面的不足,并对基于深度学习的显著性目标检测的未来发展方向,如复杂背景、实时、小目标、弱监督等显著性目标检测进行了探讨。关键词:显著性目标检测;深度学习;视觉显著性文献标志码:A
中图分类号:TP391
Survey of Salient Object Detection Bad on Deep Learning
SHI Caijuan +,ZHANG Weiming,CHEN Houru,GE Lulu
College of Artificial Intelligence,North China University of Science and Technology,Tangshan,Hebei 063210,China Abstract:With the development of deep learning,salient object detection bad on deep learning has become a rearch hotspot in the computer vision field.Firstly,existing salient object detection methods bad on deep learning are introduced from three boundary/mantic enhancement,global/local combination and auxiliary net-work.As the same time,the saliency maps of the methods,qualitative analysis and comparison are given.Then the main datats and main evaluation criteria for salient object detection bad on deep learning are introduced in brief.Next the performance of salient object detection methods bad on deep learning are compared on some datats,including quantitative comparison,P-R curves and visual comparison.Finally,the shortcomings of the existing methods in complex background,small objects and real-time detection are pointed out,and the future development direction of salient object detection methods bad on deep learning is explored,such as complex background,real-time,small object,weakly-supervid salient object detection and so on.Key words:salient object detection;deep learning;visual saliency
计算机科学与探索
1673-9418/2021/15(02)-0219-14doi:10.3778/j.issn.1673-9418.2007074
基金项目:国家自然科学基金(61502143);华北理工大学杰出青年基金(JQ201715);河北省研究生示范课项目(KCJSX2019097)。This work was supported by the National Natural Science Foundation of China (61502143),the Distinguished Youth Foundation of North China University of Science and Technology (JQ201715)and the Graduate Model Class Project of Hebei Province (KCJSX2019097).收稿日期:2020-06-19
修回日期:2020-08-24
视觉显著性是指模仿人类视觉系统快速检测出视觉上最独特的显著性区域,即显著场景,然后对该
区域进行感知和处理。显著性目标检测(salient object detection ,SOD )是指检测显著场景中最吸引注意力
Journal of Frontiers of Computer Science and Technology
Journal of Frontiers of Computer Science and Technology 计算机科学与探索2021,15(2)
的物体。近年,显著性目标检测得到了广泛研究和应用,如图像分类[1-2]、语义分割[3-4]、超像素[5]、图像检索[6]、视觉跟踪[7]、内容感知图像编辑[8]和机器人导航[9]等。
显著性目标检测方法一般可以分为传统显著性目标检测方法和基于深度学习的显著性目标检测方法。传统显著性目标检测方法主要是利用人类直观感觉或者启发式先验,如利用色度比较[10]、背景比较[11]和边界点先验[12]等,通过人工提取特征来检测目标。然而,人工提取特征非常耗时。近年,深度学习的发展极大促进了显著目标检测研究,基于深度学习的显著性目标检测方法不断被提出。不同于传统方法,基于深度学习的显著性目标检测方法不需要人工提取特征,而是自动学习得到多尺度特征;另外,检测性能也有了很大提升,如检测精度大幅提升,时效性越来越好,模型轻量级,单一网络同时完成显著性目标的检测和边界定位等。但是,现有的基于深度学习的显著性目标检测方法也还存在不足,如复杂背景下的显著性目标检测性能有待进一步提升,检测的实时性有待提高,模型复杂度需要降低等。
近年,部分学者对基于深度学习的目标检测方法进行了梳理总结[13-19],
但是对国内外基于深度学习的显著性目标检测算法的总结与分析非常有限。因此,本文将对基于深度学习的显著性目标检测算法进行总结分析。首先详细阐述了基于深度学习的显著性目标检测的不同方法;其次简单介绍了常用数据集和评估准则;接着对多个基于深度学习的显著性目标检测方法进行了性能比较;最后分析了现有基于深度学习的显著性目标检测方法的不足及未来发展方向。
1基于深度学习的显著性目标检测方法
随着深度学习的快速发展,基于深度学习的显
著性目标检测方法被广泛提出,克服了传统方法中人工提取特征耗时或者迁移性较差等问题。图1给出了近年来基于深度学习的显著性目标检测的发展历程及主要方法。本文分别从边界/语义增强、全局/局部结合和辅助网络三个不同的角度对现有的基于深度学习的显著性目标检测方法进行介绍。
1.1基于边界/语义增强的显著性目标检测
研究发现,深度网络VGG [20](visual geometry group )
和ResNet [21](residual neural network )等提取的多层多尺度特征中低层特征包含良好的空间信息,可以定位边界,而高层特征具有丰富的语义信息,可以定位显著性目标。因此,为了提高显著性目标检测的性能,有的研究对低层特征进行操作来增强边界[22],获得更加清晰的显著性目标边界;有的研究锐化高层特征来获得丰富的语义信息,通过语义增强来更好地定位显著性目标[23];还有一些研究对边界和语义同时进行增强[24],以获得更好的显著性目标检测效果。因此,本节将从边界增强、语义增强,边界/语义增强三个角度对基于深度学习的显著性目标检测方法进行介绍。
1.1.1基于边界增强的显著性目标检测方法
边界增强是指通过增强深度特征中的低层特征来获得更多的边界信息,从而更好地定位显著目标边界。
Tai 等人提出ELD (encoded low-level distance )算法[22]对颜色及其分布和滤波器响应位置等低层特征的特征距离进行编码,生成低阶距离图以获得边界检测效果;Wang 等人提出的KSR (kernelized sub-space ranking )算法[25]
夏季衣服构建了一种基于核化的子空间
Fig.1Development of salient object detection bad on deep learning 图1
基于深度学习的显著性目标检测的发展
220
俄语字母表
史彩娟等:基于深度学习的显著性目标检测综述
排序模型来测量低层特征的两两距离,根据模型给出的建议分数生成低层特征图。以上两种方法通过编码低层特征距离来检测边界信息,定位显著性目标轮廓,但是轮廓边界有时会模糊,导致部分边界细节丢失,仿真结果如图2(c )、(d )所示。为了进一步提升显著性目标边界检测效果,一些研究通过引入相关操作来增强低层特征具有边界信息。Li 等人提出的DCL (deep contrast learning )算法[26]采用分段空间池流模拟不连续的显著性目标边界,解决显著性目标边界模糊的问题。Hou 等人提出的DSS (deeply supervid salient )算法[27]是在HED (holistically-nested edge detection )体系结构中引入了具有跳跃结构的短连接,使每一层具有更加丰富的多尺度特征映射,从而获得显著性目标的清晰边界。DCL 和DSS 方法的仿真显著图如图2(e )、(f )所示。从仿真结果可以看出,相较于直接编码低层特征距离的算法,进一步引入相关操作的方法获得的显著性目标边界更加清晰。但是,这些操作的引入容易引起显著性目标检测不准确,如图2(e )、(f )第二行出现了不准确的显
著性目标(山)
。
法考论坛
Fig.2Saliency maps of methods bad on boundary enhancement 图2
基于边界增强方法的显著图
另外,还有一些研究直接对显著性目标的边界进行检测。Hou 等人提出TBOS (three birds one stone )算法[28],采用了一种通用架构对显著性目标边界进行检测,同时能够完成骨架提取和目标分割。Feng 等人提出的AFNet (attentive feedback network )算法[29]采用BEL (boundary-enhanced loss )边界增强损失来获得更精确的边界,进而实现对显著性目标,特别是凸起窄条纹的分割。Qin 等人提出的BASNet (boundary-aware salient network )算法[30]
将混合损耗用于边界感
知的显著性目标检测,能够准确地预测出清晰的边
界结构,以及有效地分割出显著性目标区域。以上三种直接提取显著性目标边界的检测算法的显著图如图3(c )、(d )所示。从图3可以看出这类方法能够提取清晰的显著性目标边界,边界细节相对较好,显著性目标的检测准确度较高(无关的显著性目标较少)
虞山
。
Fig.3Saliency maps of methods bad on direct extraction of boundaries 图3
直接提取边界方法的显著图
1.1.2基于语义增强的显著性目标检测方法
月经推迟是什么原因
语义增强是指从高层特征中获得丰富的语义信息,从而更好地定位显著性目标,使显著性目标更加突出。Dai 等人提出的R-FCN (region-bad fully con-volutional networks )算法[23]通过全卷积网络获得高层语义特征以获得具有通用性的显著性图。Wu 等人
提出CPD (cascaded partial decoder )算法[31],
直接利用生成的显著性图细化骨干网的特征来提高高层特征的表示能力;另外,利用多尺度特征进一步细化显著性图并纠正映射错误。Liu 等人提出的PoolNet 算法[32]充分利用卷积神经网络的池操作,将金字塔池块放在U 型结构的最顶层来获取丰富的语义信息。以上三种基于语义增强的显著性目标检测方法的显著图如图4(c )~(e )所示。这类方法可以准确定位显著性目标的位置,
但是由于仅针对高层特征所包含的语
Fig.4Saliency maps of methods bad on mantic enhancement 图4
基于语义增强方法的显著图
221
Journal of Frontiers of Computer Science and Technology 计算机科学与探索2021,15(2)
义进行增强,有时会造成显著性目标边界模糊或者多个显著性目标重合。
为了获得有效的显著性目标,一些研究通过引入注意力机制进一步增强语义信息。Liu 等人提出的PiCANet (pixel-wi contextual attention network )算法[33]首先为每个像素生成注意力图,
然后有选择地整合上下文信息来构建有效特征,最后与U-Net 架构结合生成显著性图。Chen 等人提出的RAS (rever attention salient )算法[34]根据逆向注意提出了一个自上而下的边训练边输出的剩余学习方式,实现对最深层语义信息的增强。基于注意力机制的语义增强显著性目标检测算法的显著图如图5(c )、(d )。引入注意力机制来有效提取语义信息,准确定位显著性
目标的位置。
Fig.5Saliency maps of methods bad on mantic enhancement with attention mechanism 图5
基于注意力机制的语义增强方法的显著图
1.1.3基于边界/语义增强的显著性目标检测方法
通过前面两类方法的分析可以看出,只进行边界增强容易造成显著性目标模糊,而只进行语义增强则会引起显著性目标的边界模糊。因此,为了克服二者的缺点,一些研究对边界和语义同时进行增强,同时获得良好的显著性目标信息以及轮廓信息,从而提升显著性目标检测性能。
Zhang 等人提出的Amulet 算法[24]将多层特征映射集到多个分辨率,获得同时包含语义信息和边缘细节的显著性图。Zhang 等人提出的BDMPM (bi-directional message passing model )算法[35]设计
了一种门函数来控制消息的传递速率和双向传递。双向的消息传递结构可以同时对语义信息和空间细节进行编码实现显著性目标检测。以上两种基于边界/语义增强的显著性目标检测算法的显著图如图6(c )、(d )。这些方法既可以准确定位显著性目标的位置,又可以获得清晰的显著性目标边界。主要是因为通
过语义增强可以减小无效目标的干扰,更好地定位显著性目标的位置;通过边界增强可以获得清晰的
显著性目标边界。
Fig.6Saliency maps of methods bad on boundaries/mantic enhancement样样
图6
基于边界/语义增强方法的显著图
另外,还有一些研究采用金字塔结构同时对高低层特征进行处理,实现显著性目标边界和语义的同时增强。Wang 等人提出的SRM (stagewi refine-ment model )算法[36]首先利用深度前馈网络生成一个粗略的预测图,然后将一个金字塔结构应用于不同区域得到更加精确的显著性图。Wang 等人提出的PAGE (pyramid attention edge )算法[37]设计了显著性目标检测的基本金字塔注意结构,能够挖掘多尺度的深层显著性信息,同时利用一个边缘检测模块完成边界提取。Zhao 等人提出的PFA (p
yramid feature attention )法[38]将多层卷积特征分成高层特征和低层特征,首先对高层特征设计了一个上下文信息金字塔模块(context-aware pyramid feature extraction ,CPFE )来提取丰富的上下文语义信息,然后采用信道注意模块(channel-wi attention ,CA )来进一步增强语义信息,从而更好地定位显著性目标区域;对于低层特征采用空间注意模块(spacial attention ,SA )来细化空间信息,更好地定位显著性目标的边界;最后,将SA 和CA 的输出进行有效融合来获得更好的显著性图。基于金字塔的边界/语义增强的显著性目标检测算法的显著图如图7(c )~(e )所示,可以看出PFA 算法性能优于PAGE 算法和SRM 算法。
1.2基于全局/局部结合的显著性目标检测
研究发现全局信息(颜色、纹理、背景/前景等)包
含显著性目标的位置信息,而局部信息可以增强显著性目标边界。一些检测方法采用递归操作、多分辨率操作和注意力机制等将全局/局部相结合以获得更好的显著性目标检测性能。
222
史彩娟等:
基于深度学习的显著性目标检测综述
Fig.7Saliency maps of methods bad on boundaries/mantic enhancement with feature pyramid 图7
基于特征金字塔的边界/语义增强方法的显著图
递归操作是指全局和局部操作交替进行。Liu 等人提出的DHSNet (deep hierarchical saliency net-work )
[39]
算法首先利用全局对比度、对象性和紧凑性等全局信息得到一个显著性图,然后采用层次递归卷积神经网络(hierarchical recurrent convolutional neu-ral network ,HRCNN )利用局部上下文信息对显著性图进一步增强。Wang 等人提出的GRL 算法[40]采用递归方式利用加权响应图提取上下文信息定位显著性目标,然后对局部边界进行细化以获得更加清晰的边界。虽然递归方式取得了一定的效果,但是研究发现递归操作非常耗时耗力。另一种全局/局部相结合的显著性目标检测方法是采用多分辨率特征来提升显著性目标检测效果。Luo 等人提出的NLDF
(non-local deep features )
[41]
锹甲科算法利用卷积块和反卷积设计了一种简单的4×5卷积神经网络结构,通过每一列提取并强化特定分辨率的局部特征,最后将局部和全局信息结合起来输出。另外,还有一些研究在递归和多分辨率操作的基础上添加了注意力机制,对提取的全局/局部信息进一步强化,提升显著性目标检测性能,如Zhang 等人提出的渐进注意引导递归网络PAGR (progressive attention guided recurrent )[42]。基于全局/局部结合的显著性目标检测方法的显著图如图8(c )~(f )所示。在相同的VGG (visual geometry group )模型下,与DHS 算法相比,NLDF 和PAGR 算法能够获得更加清晰的显著性图,由于PAGR 算法引入了注意力机制,其性能最优。
1.3基于辅助网络的显著性目标检测
沂水地下大峡谷基于辅助网络的显著性目标检测是指采用其他
领域已有模型作为辅助网络来提升显著性目标检测性能。Li 等人提出的MDF (multiscale deep features )算法[43]使用预先训练的图像分类模型来产生分级的
显著性图;Li 等人提出的C2S-Net (contour to contour salient network )算法[44]将深度轮廓检测模
型自动转换为显著性目标检测模型;Zhang 等人提出的CapSal 算法[45]将字幕网络(image captioning network ,ICN )作为辅助语义任务来提高复杂场景中的显著目标检测性能;Wu 等人提出的MLSLNet (mutual learning super-vid learning network )算法[46]以一种交互方式让显著性目标检测和前景轮廓检测交替进行来得到显著性图。图9给出了基于辅助网络的显著性目标检测
算法的显著图。
Fig.9
Saliency maps of methods bad on
auxiliary network
图9
基于辅助网络方法的显著图
1.4不同类型显著性目标检测方法分析比较
表1列出了以上三种类型显著性目标检测方法
的机制、优点、缺点和适用场景。
通过以上分析及表1可以看出,现有基于深度学习的显著性目标检测方法边界模糊的原因和相应的解决方法可以归纳为以下几类:(1)深度模型包含许多下采样操作,上采样后的特征难以恢复原有的空间信息,融合后引起边界模糊。因此,为了减小下采样操作引起的多尺度融合损失,引入一些特定操作,如PoolNet 算法中采用功能聚合模块等。(2)针对不同因素对边界检测的影响,
通过编码低层特征距离
Fig.8
Saliency maps of methods bad on global/local combination 图8
基于全局/局部结合方法的显著图
223