单阶段实例分割综述
本⽂⽐较全⾯地介绍了实例分割在单阶段⽅法上的进展,根据基于局部掩码、基于全局掩码和按照位置分割这三个类别,分析了相关19篇论⽂的研究情况,并介绍了它们的优缺点。
实例分割是⼀项具有挑战性的计算机视觉任务,需要预测对象实例及其每像素分割掩码。这使其成为语义分割和⽬标检测的混合体。
⾃ Mask R-CNN 以来,实例分割的SOTA⽅法主要是 Mask RCNN 及其变体(PANet、Mask Score RCNN 等)。它采⽤先检测再分割的⽅法,先进⾏⽬标检测,提取每个⽬标实例周围的边界框,然后在每个边界框内部进⾏⼆值分割,分离前景(⽬标)和背景。
黑巧克力会发胖吗
除了检测然后分割(或逐检测分割)的⾃顶向下⽅法之外,还有其他⼀些实例分割⽅法。⼀个例⼦是通过将实例分割作为⾃底向上的像素分配问题来关注像素,就像在 SpatialEmbedding (ICCV 2019) 中所做的那样。但是这些⽅法通常⽐检测然后分割的 SOTA 具有更差的性能,我们不会在这篇⽂章中详细介绍。
然⽽,Mask RCNN 速度⾮常慢,许多实时应⽤场合⽆法使⽤。此外,Mask RCNN 预测的掩码具有固定的分辨率,因此对于具有复杂形状的⼤⽬标来说不够精细。由于anchor-free⽬标检测⽅法(例如 CenterNet 和 FCOS)的进步,已经出现了⼀波关于单阶段实例分割的研究。其中许多⽅法⽐ Mask RCNN 更快、更准确,如下图所⽰。
最近在 Tesla V100 GPU 上测试的单阶段⽅法的推理时间
本⽂将回顾单阶段实例分割的最新进展,重点是掩码表⽰——实例分割的⼀个关键⽅⾯。局部掩码和全局掩码噩耗
在实例分割中要问的⼀个核⼼问题是实例掩码的表⽰或参数化——1)是使⽤局部掩码还是全局掩码,2)如何表⽰/参数化掩码。
主要有两种表⽰实例掩码的⽅法:局部掩码和全局掩码。
全局掩码是我们最终想要的,它与输⼊图像具有相同的空间范围,尽管分辨率可能更⼩,例如原始图像的 1/4 或 1/8。它具有对⼤或⼩⽬标具有相同分辨率(因此具有固定长度特征)的天然优势。这不会牺牲更⼤⽬标的分辨率,固定分辨率有助于执⾏批处理以进⾏优化。
局部掩码通常更紧凑,因为它没有作为全局掩码的过多边界。它必须与要恢复到全局掩码的掩码位置⼀起使⽤,并且局部掩码⼤⼩将取决于⽬标⼤⼩。但是要执⾏有效的批处理,实例掩码需要固定长度的参数化。最简单的解决⽅案是将实例掩码调整为固定图像分辨率,如 Mask RCNN 所采⽤的那样。正如我们在下⾯看到的,还有更有效的⽅法来参数化局部掩码。
根据是使⽤局部掩码还是全局掩码,单阶段实例分割在很⼤程度上可以分为基于局部掩码( local-mask-bad )和基于全局掩码( global-mask-bad )的⽅法。
重生之妓不如仁
基于局部掩码的⽅法
基于局部掩码的⽅法直接在每个局部区域上输出实例掩码。
雪花曲线
显式编码的轮廓
Bounding box 在某种意义上是⼀个粗糙的掩码,它⽤最⼩的边界矩形来逼近掩码的轮廓。ExtremeNet(Bottom-up Object Detection by Grouping Extreme and Center Points,CVPR 2019)通过使⽤四个极值点(因此是⼀个具有8个⾃由度的边界框⽽不是传统的4个DoF)进⾏检测,并且这种更丰富的参数化可以⾃然地扩展通过在其对应边缘上的两个⽅向上的极值点延伸到整个边缘长度的 1/4 的⼀段,到⼋边形掩模。
从那时起,有⼀系列⼯作试图将实例掩码的轮廓编码/参数化为固定长度的系数,给定不同的分解基础。这些⽅法回归每个实例的中⼼(不⼀定是 bbox 中⼼)和相对于该中⼼的轮廓。
ESE-Seg(Explicit Shape Encoding for Real-Time Instance Segmentation,ICCV 2019)为每个实例设计了⼀个内圆⼼半径形状签名,并将其与切⽐雪夫多项式拟合。
PolarMask(PolarMask:Single Shot Instance Segmentation with Polar Reprentation,CVPR 2020)使⽤从中⼼以恒定⾓度间隔的光线来描述轮廓。鱼泡的做法
FourierNet(FourierNet:Compact mask reprentation for instance gmentation using differentiable shape decoders)引⼊了使⽤傅⽴叶变换的轮廓形状解码器,并实现了⽐ PolarMask 更平滑的边界。
各种基于轮廓的⽅法
高职高考作文这些⽅法通常使⽤ 20 到 40 个系数来参数化掩码轮廓。它们推理速度快且易于优化。但是,它们的缺点也很明显。⾸先,从视觉上看,它们都看起来——⽼实说——⾮常糟糕。它们⽆法精确描绘掩码,也⽆法描绘中⼼有孔的物体。
这系列⽅法很有意思,但是前途渺茫。实例掩码的复杂拓扑或其轮廓的显式编码是难以处理的。
结构化 4D 张量含鸟的诗句
TensorMask (TensorMask: A Foundation for Den Object Segmentation, ICCV 2019) 是通过预测每个特征图位置的掩码来展⽰密集掩码预测思想的⾸批作品之⼀。TensorMask 仍然通过感兴趣区域⽽不是全局掩码来预测掩码,并且它能够在不运⾏⽬标检测的情况下运⾏实例分割。
TensorMask 利⽤结构化的 4D 张量来表⽰空间域上的掩码(2D 迭代输⼊图像中的所有可能位置,2D 表⽰每个位置的掩码),它还引⼊了对齐表⽰和张量双锥体( aligned reprentation and tensor bipyramid )来恢复空间细节,但这些对齐操作使⽹络甚⾄⽐两阶段的Mask R-CNN 还要慢。此外,为了获得良好的性能,它需要使⽤⽐标准 COCO ⽬标检测管道(6x schedule)长 6 倍的调度进⾏训练
奋斗格言紧凑型掩码编码
⾃然的⽬标掩码不是随机的,类似于⾃然图像,实例掩码位于⽐像素空间低得多的内在维度。
MEInst(Mask Encoding for Single Shot Instance Segmentation,CVPR 2020)将掩码提炼为紧凑且固定的维度表⽰。通过使⽤PCA 进⾏简单的线性变换,MEInst 能够将 28x28 的局部掩码压缩为 60 维的特征向量。 该论⽂还尝试在单级⽬标检测器(FCOS)上直接回归 28x28=784-dim 特征向量,并且在 1 到 2 个 AP 点下降的情况下也得到了合理的结果。