深度学习诞生前,实现图像中目标检测任务主要依赖于人工设计局部特征描述子,概括性强、抽象表达概括全局信息从而区分图像的不同区域,经典算法有HOG[1](Histogram of Oriented Gradient)、SIFT[2](Scale-Invariant Feature Transform)及LBP[3](Local Binary Patterns)等,但局部特征描述符的设计需要极强的领域专业知识且耗费人力。在深度学习的发展之下,借用深层次卷积神经网络可以从图像中学习具有不同层次的特征表示方法,如何设计具有更好局部特征描述子的问题转化为如何设计轻量网络结构和简化训练过程,以实现精细任务。在计算机视觉的飞速发展之下,细化分类的计算机视觉技术可以分为分类、目标检测、语义分割、实例分割多个类别[4]。分类指的是预测目标图像中对象类别,目标检测在由粗至细的过程中不仅确定图像中目标的类别,同时以边界框或者图中心的形式标明目标所在图像中具体位置。语义分割在此基础上对目标每个像素点标签预测,使每个像素按照其所在区域或对象分类标记,得到更精细分割结果。实例分割的概念最早由Hariharan等人[5]提出,旨在对同类对象组不同个体提供不同标签,整个过程中相同含义像素被赋予相同标签,
基于深度学习的实例分割研究进展
李晓筱1,胡晓光2,王梓强1,杜卓群1
1.中国人民公安大学信息网络安全学院,北京100038
2.中国人民公安大学侦查学院,北京100038
摘要:目标检测确定检测图像中目标对象所在区域及其类别,语义分割对检测图像实现像素级分类,实例分割可以定义为同时解决目标检测与语义分割问题,在分类的同时确定每个目标实例语义。实例分割网络在无人机驾驶、机器人抓取、工业筛检等领域具有重要应用意义,针对目前基于深度学习实例分割综述性文章的空白,对实例分割进展进行概述,按照单阶段实例分割与双阶段实例分割的分类对不同网络模型进行论述,重点介绍近两年网络框架的发展,总结各网络特点的同时提出未来发展方向。
内径英文
关键词:实例分割;深度学习;语义分割
文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2012-0412
Survey of Instance Segmentation Bad on Deep Learning
LI Xiaoxiao1,HU Xiaoguang2,WANG Ziqiang1,DU Zhuoqun1
1.School of Information and Cyber Security,People’s Public Security University of China,Beijing100038,China
2.School of Investigation,People’s Public Security University of China,Beijing100038,China
Abstract:Target detection determines the area and category of target objects in the detected image.Semantic gmentation implements pixel-level classification of detected images.Instance gmentation can be defined as solving the problem of target discovery and mantic gmentation at the same time,and the mantics of each target instance are determined during classification.Instance gmentation networks have important application importance in areas such as drone driving, robot gripping,and industrial screening.Aiming for a blank in the current review article bad on deep learning instance gmentation,this article provides an overview of single-stage instance gmentation and double instance gmentation. The stage instance gmentation classification describes different network models,focus on the development of network frameworks over the last two years,summarizes the characteristics of each network,and suggests future develop-ment directions.
Key words:instance gmentation;deep learning;mantic gmentation
基金项目:国家重点研发计划;中国人民公安大学专项(2020JWCX08);上海市现场物证重点实验室开放课题基金(2020XCWZK05)。作者简介:李晓筱(1997—),女,硕士研究生,主要研究方向为路径规划、智能刑侦技术;胡晓光(1980—),通信作者,男,博士,硕士生导师,主要研究方向为人工智能、计算机视觉,E-mail:*************************;王梓强(1997—),男,硕士研究生,
主要研究方向为slam、智能刑侦技术;杜卓群(1996—),女,硕士研究生,主要研究方向为行人再识别、智能刑侦技术。收稿日期:2020-12-23修回日期:2021-02-26文章编号:1002-8331(2021)09-0060-08
在实现目标检测任务时解决语义分割问题。
随着深度学习[6]及卷积神经网络[7]的出现,许多实例分割框架被提出。实例分割广泛应用于无人驾驶、医学影像分析、安全防控、工业分拣等领域,可靠、迅速提取图像关键信息,准确、精细分割的结果为后续视觉处理提供便利。分割精度体现在精确定位及识别框架,在内外条件变化的实际场景中保持较高鲁棒性;保持较高精度的同时降低算法计算量是实例分割的开发思想。目标分割根据阶段分类可分为基于候选区域的双阶段检测及基于一体化卷积网络的单阶段检测器,前者的准确率高、检测精度高,但后者检测运行速度快。受单双阶段目标检测启发,实例分割也存在单阶段实例分割及双阶段实例分割。两类实例分割方法适用于不同的场景,近期实例分割取得很大进展,基于Faster R-CNN 发展而来的Mask R-CNN 实例分割网络使用掩码分割、包围框回归、对象分类三支线并行,是一种直
接有效的实例分割方法,以其网络的高精度和稳定性成为双阶段实例分割网络的标杆;单阶段实例分割网络YOLACT 的出现标志实时性实例分割的开端,以较小的精度损失获取高效的处理能力。但目前而言实例分割方法缺乏相关综述性文章。本文将以近两年计算机视觉会议为主,阐述主流实例分割网络结构及应用,并介绍常用评价指标及数据库,对未来可能发展进行展望。
1双阶段实例分割网络1.1FCIS
传统语义分割网络使用采用交叉熵并结合标签进行端到端训练,无法实现同一像素在不同区域具有不同语义的实例分割任务。FCIS [8]提出一种端到端完全卷积的实例分割方法,它沿用了实例感知全卷积网络[9](Instance-nsitive fully convolutional networks )中位置感知特征图(Position-nsitive Score Map )概念,在输入图片中卷积生成k ×k 组位置感知特征图;特征感知特征图表示像素在不同感兴趣区域(Regions of Interest ,RoI )的位置特征表示,综合像素在每个感兴趣区域的得
分衡量像素属于对象实例的可能性。
为了增加分割、检测子任务的联系性,FCIS 在位置感知特征图基础上提出内部分数和外部分数。在分割任务中,直接使用Softmax 判别函数对像素分类,感兴趣区域对每个像素分数集合;在检测任务中,先对每类位置特征感知特征图逐像素使用Max 函数分类,汇集所有像素可能性后使用Softmax 判别函数获得整个区域预测分数。两类位置特征感知图的提出将分割和检测的子任务紧密结合,使用较
简洁、直观的网络结构实现任务。
对于整个FCIS 框架(如图1),图像输入只保留卷积层的ResNet 进行卷积操作获得初步特征,特征经过区域建议网络得到感兴趣区域同时经过卷积层生成特征图。结合位置特征感受的过程实现分割和检测的子任务。FCIS 建立了一个完全抛弃全连接层的轻量级网络,设计的位置特征感知图架构使图像分割和图像分类可以共享特征图,整个网络计算量小、更加轻量。
FCIS 作为实例分割早期模型,提供了一种实例分割任务的解决方案,但就结果来看,在重叠的实例上FCIS 出现系统性的检测错误,并产生了虚假边缘[10],如图2所示。
1.2Mask R-CNN
Mask R-CNN [10]是目标检测网络Fast R-CNN [11]、
Faster R-CNN [12]发展而来的实例分割网络,通过在边界框识别分支的基础上增加预测目标掩码的分支,有效检测目标对象的同时,对每个实例生成高质量的分割掩模。
传统特征提取操作中,系列卷积获得的特征图经过上采样尺寸过大,无法实现对小目标的检测。主干网络部分,Mask R-CNN 采用特征金字塔网络[13](Feature
instance mask
yes/no
ave.&vote
c -th category
category
likelihood pixel-wi
max
pixel-wi softmax (inside/outside )
2(C +1)
asmbling
positior-nsitive
inside/outside score maps
conv
convalps
RPN
conv
2(C +1)×k 2
图1FCIS
网络结构
图2实例重叠时FCIS 检测产生虚假边缘
Pyramid Networks,FPN)和ResNet101网络结合,在原始特征金字塔网络自上而下特征中加入3×3卷积进一步提取特征。抽象但语义更强的特征图上采样并横向连接至分辨率更高的底层特征图,保证空间尺寸相同的情况下,融合后特征图更好的定位,主干网络的选择实现信息丰富、特征加强。
Mask R-CNN使用轻量的区域建议网络(Region Proposal Network,RPN)获取感兴趣区域,对每块扫描获得的瞄(anchor-box)输出前景或背景的类别,并同时评估输出精细调整前景瞄框与目标中心位置关系;在多个瞄框重叠的情况下使用非极大值抑制(Non-Maximum Suppression,NMS)选择前景分数最高瞄框,最终输出图片内最佳的区域建议。
Mask R-CNN提出RoIAlign操作,使用双线性插值的方法计算每个感兴趣区域采样点输入特征值,避免边界量化的同属保证提取特征与输入对齐。训练中Mask R-CNN提出多任务损失函数L:
L=Lbox+Lcls+Lmask(1)式(1)中Lbox衡量目标分类损失值,Lcls衡量目标检测损失,Lmask衡量实例分割损失。
由于Mask R-CNN具有较强的分割精度,Zimmer-mann等[14]受人工设计分割算子的启发,提出在原有Mask R-CNN基础上增加边缘分支以增强网络对边缘检测的精度,在速度基本不变的情况下网络精
度提升1.8%;Huang[15]等将金字塔注意力网络(PAN)作为Mask R-CNN的骨干网络,以统一的方式从自然场景图像中检测出多方向和弯曲的文本,该方法能有效地抑制文本类背景引起的误报警,在多项文本检测基准任务上取得了优异的性能。
1.3Mask Scoring R-CNN
Mask R-CNN中,掩码分支最终输出由分类分支最高置信度决定,但分类分支置信度与掩码的相关度很低,依据分类分支确定的掩码并不是最佳选择,导致衡量算法掩码部分分值降低。针对此问题,Mask Scoring R-CNN[16]设计一种掩码评价策略Mask IoU衡量真实掩码与预测掩码差异,同时引入网络分支Mask IoU Head 对评价进行训练。掩码评价策略用S mask表示:S mask=S cls⋅S
IoU
(2)
其中,S cls表示目标分类分数,S
IoU
表示交并比分数。Mask Scoring R-CNN提出的掩码评价策略相比之前的评价对目标分类及掩码分割
更敏感,从而校准了掩码质量和掩码得分之间的偏差,提升分割性能;且网络稳定性能高,为后续实例分割评价工作的进一步发展提供可能方向。
1.4BlendMask
较高级别的特征对应于较大的感受野,并且可以更好地捕捉关于姿势等实例的整体信息,而较低级别的特征保存更好的位置信息,并且可以提供更精细的细节。BlendMask[17]提出一种基于提议的实例掩码预测的方法,称为blender,它结合了丰富的实例级信息和精确的密集像素特征,在与目标检测框架结合的过程中,以较小的计算提高检测准确性。
网络结构方面,BlendMask由一个检测器网络和一个掩码分支组成。掩码分支有三个部分,其中底部模块用于预测评分图,模块的输入可以是语义分割网络的主干特征,或特征金字塔;顶层模块attention map获取粗略的实例信息,包括对象形状及位置;Blender module 模块用于合并评分和关注度,它根据关注度结合位置感知生成最终预测。与典型分辨率为28×28的掩码版相比,混合掩码具有灵活性,提供了详细的实例级信息,获取位置感知信息并抑制外部区域。在输出高分辨率掩膜的同时可以适用于实时性任务。
2单阶段实例分割
2.1YOLACT
在YOLACT[18]诞生前,精度较高的实例分割网络是基于双阶段目标检测提出的,但双阶段方式掩码的生成依赖于目标定位,例如Mask R-CNN使用RoIAlign从边界框中获取特征,并将局部化特征输入到掩码生成模块,这样依序处理的方式使得双阶段实例分割方式虽然精度高,但处理速度慢。受单阶段目标检测算法SSD[19]、YOLO[20]等实时性强的启发,YOLACT将实例分割分解为两个并行的任务:生成整个输入图像的掩码组合、预测每个实例掩码系数并将相应预测系数与全图组合;在不需要依序处理(repooling)的情况下,YOLACT 网络速度达到30frame/s(每秒帧数)以上,产生高精度掩码的同时可以实现实时性的实例分割。
主干网络部分,YOLACT沿用单阶段目标检测网络RetinaNet结构,使用RestNet101与特征金字塔网络结合,其中,特征金字塔网络部分由P3至P7构成,P3至P5层由ResNet对应C3至C5层计算获取。P3层保留更深层次图像特征输入全图掩码分支(Protonet),通过全卷积神经网络将最后一层保留k个通道,处理后变为原图1/4大小,获取全图预测的k个掩码组合。全图掩码分支监督来自最终掩码损失,在获得高质量掩码的情况下对小目标分割体现更好的分割效果,如图3。
掩码系数部分,YOLACT在基于锚点(anchor)目标检测基础上,对应全局掩码分支增加第三个分支预测k 个掩码系数;共包含预测分类置信度分支、预测边框分支、掩码系数预测分支,对每个瞄点产生4+c+k个系数。全图掩码和掩码系数采用线性组合的方式:
M =σ(PC T )(3)
其中,P 表示全图掩码矩阵h ×w ×k ,
C 表示经非极大值抑制和得分阈值筛选后的掩码系数矩阵n ×k 。
在提升网络速度方面,YOLACT 提出一种快速非极大值抑制方法(Fast NMS )。传统目标检测网络中,在为每个锚点产生边界回归和类别置信度后使用非极大值抑制降低重复检测,但按顺序执行的方法受速度限制,快速非极大值抑制方法并行排序矩阵计算,并保留确定剔除的检测框对其他框的影响。在Mask R-CNN 中仅替换非极大值抑制方法,就提速15.0ms ,且性能损失仅为0.3mAP ,快速非极大值抑制方法在网络性能损失较小的情况下,实现了网络提速的飞跃。
YOLACT 虽然在测试过程中也存在目标场景复杂时无法准确定位、相距较远两个实例间掩码重叠的问题,但轻量且精度较高的网络为实时实例分割网络提供了参考。改进方面,Lee 等[21]提出了一种将混合精度量化技术应用于YOLACT 网络的方法,根据YOLACT 中的参数大小和对模块精度的影响自适应量化,在尽可能保持精度的同时显著地减小网络规模,在精度损失小于0.1%的情况下整个网络的参数尺寸减小75.4%;Liu 等[22]提出一种实时实例分割YolactEdge 。对基于图像的实时方法YOLACT
进行了两个改进:(1)TensorRT 优化,同时考虑了速度和精度;(2)提出新的特征扭曲模块。实验表明,YolactEdge 在保证掩码精度同时,速度提升3~5倍。
2.2YOLACT++
针对YOLACT 实时性强但精度稍差的问题,YOLACT++[23]被提出;它沿用YOLACT 生成整个输入图像的掩码组合、预测每个实例掩码系数并将相应预测系数与全图组合的设计,保持原有网络架构的大部分结构,从主干网络、瞄框选择、掩码评估改进等方面对原有结构进行优化。主干网络方面,YOLACT++加入可变性空间卷积(Deformable Convolution with Intervals ),提升对长宽比、尺度、角度不同目标的处理能力,衡量精度
和处理速度的可变性空间卷积使网络耗时增加2.8ms 的情况下,mAP 提升1.6。瞄框选择方面,YOLACT++尝试两种变形方法:保持尺度不变增加长宽比以及保持长宽比不变增加每层尺寸的比例;掩码评估方面,YOLACT++参考Mask Scoring R-CNN 的评价思想,加入快速掩码重评分分支(Fast Mask Re-Scoring Net-work ),截取全局掩码预测结果输入卷积层提取特征,并将全局池化输出的交并比与目标分类分数相乘作为最终评分。快速掩码重评分分支校准了掩码质量和掩码得分之间的偏差,且保持了网络速度,如图4。
2.3PolarMask
PolarMask [24]是一种全卷积、无锚框的单阶段实例
分割算法,它将实例分割问题转化为极坐标下选取实例中心并进行分类及密集回归预测目标实例轮廓的问题:输入整幅图像后,PolarMask 通过预测每个角度上采样的正位置确定目标实例中心,并预测目标实例中心到实例轮廓的距离,组装后输出掩码。图5表示了不同掩码表示方法,(b )表示了像素到像素预测网络的掩码表示方法,例如Mask R-CNN ,虽然精确度高但耗时较长;(c )表示笛卡尔坐标系的掩码表示方法,坐标原点表示目标实例中心,轮廓线由距离和角度决定;(d )表示极坐标系下掩码表示方法,在兼备笛卡尔坐标系以目标中心为原点、距离角度确定轮廓线的基础上,角度具有很强方向性,对于确定外轮廓来说较为方便。
图3YOLACT 网络结构
drainingPrototypes
Crop
Asmbly
Detection
1Detection
2
Threshold
NMS
江苏高考志愿填报时间Prediction Head
Protonet
Mask Coefficients
Feature Pyramid
Feature Backbone
Detection 2Racket
Detection 1Person +−+−++=−−+
−
emory university=
+
C1
C2C3C4C5P7P6P5P4P3
1×1×c
5×5×c
5×5×128
兴趣爱好英文9×9×6418×18×32
kohinoor
35×35×1669×69×8
138×138×1
图4快速掩码重评分分支
为了获得更简洁的网络结构,PolarMask 嵌入单阶段目标检测方法FCOS [25]
。主干网络部分,PolarMask 保持了与FCOS 一样的主干+特征金字塔网络结构用于提取不同层次丰富特征;分支部分,PolarMask 引入掩码回归分支替代FCOS 中检测框分支,以图片输入网络确定的实例中心为原点,间隔△θ角度均匀发射n 条射线,轮廓与中心的距离决定射线长短,其中△θ为10°,n 为36;由于角度预设定,只需预测射线长度。过去完成时的结构
在实例中心选择上,PolarMask 以目标质心为基础,将质心周围9~16个像素作为实例候选中心的正样本,引入极轴中心度(Polar Centerness )分支选择目标极坐标中心,降低正负样本的不平衡性。定义每个实例中n 条射线长度分别为{}d 1,d 2,…,d n ,则有:
Polar Centerness
=
(4)
极轴中心度分支与分类分支并行,在对极轴中心加权过程中,依据式(4),射线长度均衡的中心会被赋予更高权重。
在交并比损失方面,PolarMask 引入极坐标下交并比损失计算方法(Polar IoU Loss ),预测掩模与真实值之间的交互面积与加和面积之比。交并比公式定义为式(5),其中d 表示回归目标射线长度,d *表示预测射线长度,夹角为θ;式(5)经离散化和简化操作,最终定义交并比损失函数为式(6):
IoU =∫02π
12min ()d,d *2d θ
2013四级考试∫02π
12max ()
d,d *2d θ(5)
Polar IoU Loss =log
∑i =1
n
d max ∑i =1n
d min
(6)
PolarMask 提出一种将掩码表示转化为掩码轮廓表示的方法,使用极坐标和射线的方式模拟轮廓,虽然最终精度稍差于主流实例分割算法,但对于掩码轮廓的设计提供了全新的思路。改进方面,对于PolarMask 掩膜分割边缘模糊的问题,张绪义等[26]通过对轮廓点角度的
偏置及距离预测,并加入语义分割子网络精细边缘,测试分割结果比原方法提升2.1%。
2.4CenterMask
CenterMask [27]是一种单阶段无瞄框实例分割方法,
在单阶段目标检测方法FCOS 的基础上,提出新的空间注意力引导掩码分支(SAG-Mask )。SAG-Mask 分支从FCOS 检测中获取目标预测框,以预测每个感兴趣区域上的分割掩码;同时空间注意力模块(SAM )有助于分支聚焦于有意义的像素并抑制无意义的像素。
针对Mask R-CNN 中RoIAlign 不考虑输入尺度比例的缺陷,CenterMask 引入尺度自适应区域分配函数(Scale-adaptive RoI assignment function ),在为掩码预测提取感兴趣区域的特征时,考虑感兴趣区域比例。
主干网络方面,CenterMask 在VoVNet [28]的基础上改进,提出高效的主干网络VoVNetV2,以进一步提高中心掩码的性能。由于单次聚合(OSA )模块有效捕捉不同的感受野的特性,原有的VoVNet 网络可以有效进行多样化特征表示;但在网络深度增加的情况下,由于conv 等变换函数的增加,堆叠OSA 模块使得梯度的反向传播逐渐困难。因此CenterMask 在VoVNet 中增加了残差连接和eSE 模块。残差连接中,输入路径连接到OSA 模块的末端,OSA 模块能够以端到端的方式在每个级上反向传播模块梯度,扩大主干网络深度;针对SE
模块降维导致的信道信息丢失问题,eSE 使用一个具有C 通道的全连接层(fully-connected layer )保持信道信息,从而提高了性能。
3对比分析
3.1实例分割数据集
实例分割解决不同实例个体像素分割的问题,为了提高网络对复杂场景的理解能力,需要高清晰度、数量规模庞大的数据库作为支撑。在实例分割网络飞速发展的同时,一些为网络性能提供训练验证的公开数据集出现,为网络模型的测试结果提供基准。
Cityscapes [29]数据集着重于对城市街道场景的理
解,主要包含城市街道场景图像,按照与城市场景相关性(车辆、天空、地面等)将30个目标类别分为8类数据集。数据集包含约5000张带有精细注释的图像和20000张带有粗略注释的图像,提供语义、实例注释。Cityscapes 在天气情况稳定良好的时间内采集了50个城市图像;但由于视频记录的形式,
在使用数据集前需
(a )原图
(c )笛卡尔坐标表示
4
321
01234
(d )极坐标表示
300°330°
270°
240°
210°
180°150°120°90°
60°
30°0°01234(b )
像素表示
图5
tomb sweeping day
不同掩码表示方法