图像分割
图像分割是图像处理中的经典问题,也是计算机视觉领域的基本技术。根据不同的分割标准,可以将图像分割分为传统的图像分割算法和基于深度学习的图像分割算法。其中传统的图像分割算法⼜可分为基于阈值的图像分割,基于区域⽣长的图像分割、基于聚类的图像分割和基于边缘的图像分割⽅法,每种⽅法适⽤于不同的分割对象。⽬前深度学习技术引起了各个领域的⼴泛关注,也被尝试应⽤于图像分割。深度学习分割法基本思想是建⽴神经⽹络, 通过对样本进⾏训练来达到分割的⽬的。这种⽅法需要⼤量的训练数据,同时选择何种⽹络结构也是这种⽅法要解决的主要问题。
图像分割分类
应⽤深度学习进⾏分割时,⾸先会明确分割类型,根据实际分割应⽤任务的不同,可将图像分割⼤致分为三类普通分割、语义分割(mantic gmentation)和实例分割(instance gmentation)。这三种分割之间相互联系。
普通分割:是指将分属不同物体的像素区域分开;
语义分割:是背景分离的拓展,要求分离开具有不同语义的图像部分;
实例分割:在语义分割的基础上,对每个物体编号。不但进⾏像素类别的分类,还要区别不同实例。
基于深度学习的图像分割算法
基于深度学习的图像分割算法可以分为以下⼏类:
1) Fully convolutional networks 全卷积神经⽹络
大字拼音
2) Convolutional models with graphical models 基于图模型的卷积模型
3) Encoder-decoder bad models 编码-解码模型
4) Multi-scale and pyramid network bad models 基于多尺度和⾦字塔的⽹络模型
5) R-CNN bad models 基于R-CNN的模型
6) Dilated convolutional models and DeepLab family 空洞卷积模型和DeepLab族
7) Recurrent neural network bad models 循环神经⽹络的模型
8) Attention-bad models 基于注意⼒机制的模型0
9) Generative models and adversarial training ⽣成对抗⽹络
10) Convolutional models with active contour models 基于主动轮廓模型的卷积⽹络
下⾯依次来学习经典分割⽅法。
防火手抄报FCN
全卷积⽹络是深度学习⽤于语义分割的开创之作,确⽴了图像语义分割通⽤⽹络模型框架。通常卷积神经⽹络在卷积之后会接上若⼲个全连接层,将卷积层产⽣的特征图(feature map)映射成为⼀个固定长度的特征向量。但FCN与CNN不同,FCN对图像进⾏像素级的分类,从⽽解决了语义级别的图像分割问题。与经典的CNN在卷积层使⽤全连接层得到固定长度的特征向量进⾏分类不同,FCN可以接受任意尺⼨的输⼊图像,采⽤反卷积层对最后⼀个卷积层的特征图(feature map)进⾏上采样,使它恢复到输⼊图像相同的尺⼨,从⽽可以对每⼀个像素都产⽣⼀个预测,同时保留了原始输⼊图像中的空间信息,最后奇偶在上采样的特征图进⾏像素的分类。如下图所⽰,FCN采⽤全卷积⽅式,经过⼋层卷积处理后,对特征图进⾏上采样实现反卷积操作,然后通过SoftMax层进⾏分类,最后输出分割结果。
⼀ FCN特点
1.将普通的分类⽹络丢弃全连接层,换上对应的卷积层
教学媒体2.上采样,⽅法是双线性上采样差,此处的上采样即是反卷积。生态旅游
3.跳跃结构:因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以作者将不同池化层的结果进⾏上采样之后来优化输出,现在我们有1/32尺⼨的heatMap,1/16尺⼨的featureMap和1/8尺⼨的featureMap,如果直接对1/32尺⼨的heatMap进⾏upsampling操作,因为还原的图⽚仅仅是conv5中的卷积核中的特征,限于精度问题不能够很好地还原图像当中的特征,因此把conv4中的卷积核对上⼀次upsampling之后的图进⾏反卷积补充细节(相当于⼀个差值过程),最后把conv3中的卷积核对刚才upsampling之后的图像进⾏再次反卷积补充细节,最后就完成了整个图像的还原。
⼆ 全卷积⽹络
1)Adapting classifiers for den prediction
卷积⽹络是建⽴在平移不变性的基础上的。图像分类的模型,固⼩的输定⼤⼊,并产⽣⾮空间输出。这些⽹络的全连接层有确定的位数和抛弃空间坐标。全连接的层也可以被视为覆盖其整个输⼊区域的内核卷积。然⽽,这些全连接层也被看做是覆盖全部输⼊域的核卷积。需要将它们加⼊到可以采⽤任何尺⼨输⼊并输出分类图的全卷积⽹络中。这种转换如图2所⽰。痛的图片带字
酒店运营管理
1、图像分类的模型,固⼩的输定⼤⼊,并产⽣⾮空间输出。这些⽹的完全连接层有固定的尺⼨和抛弃空间坐标。全连接的层也可以被视为覆盖其整个输⼊区域的内核卷积。这样⼀来,它们就变成了完全卷积的⽹络,可以接受任意⼤⼩的输⼊和输出分类图。
2、⽐如AlexNet中,4096个7*7*512的卷积核和最后输出的7*7*512的特征图进⾏卷积操作,最终得到1*1*4096的特征图,等价与全连接得到4096个神经元。基于这个原理,我们也可以将输出表⽰成⼀个heatmap,⽽且这样速度更快。
3、虽然我们将分类⽹络重新解释为针对任何⼤⼩的输⼊的全卷积的输出映射,但是输出维度会被下采样降维,这使这些⽹络的全卷积版本的输出变得粗糙。
2)Shift-and-stitch is filter rarefaction
这是⼀种上下采样的技巧,因为效果不好,因此没有使⽤,只是简单做了介绍。
3)Upsampling is backwards strided convolution
上采样是下采样的逆过程(backwards convolution or deconvolution),若下采样将尺⼨缩⼩为1/f,则上采样要将尺⼨扩⼤f倍。常⽤的上采样⽅法有(1)插值:双线性插值;(2)转置卷积(反卷积);(3)反池化。本⽂使⽤的是双线性插值初始化的转置卷积。降多音字
4)Patchwi training is loss sampling
我对Patchwi training的理解是基于cs231n中的⼀个解释,即预测⼀个像素点的分类,需要输⼊⼀个n*n的patch(附带周围的⼀些像素),喂给分类⽹络,以这个patch的分类结果作为中⼼的像素点的分类。
众所周知,语义分割是对图像的每⼀个像素分类,若采⽤整张图像输⼊,那离中⼼点较远的像素其实对中⼼点像素的分类并没有什么帮助。所以以前的⽅法都是将图像分块(所谓的patch),随机选⼀批patch作为mini patch来训练,这就是Patchwi training。如果⼀个mini patch刚好对应整张图的感受野,那就是输⼊整张图没区别,⽽Patchwi training是随机选择的,patch之间很容易有重复,反⽽降低了效率,所以作者认为Patchwi training⽆必要。作者还认为,对FCN来说,进⾏分类的平衡其实没有必要,因为图像⼤部分都是背景。
三 分割架构
训练FCN的过程是:要先根据Vgg16的model,训练FCN32s,再应⽤得到的FCN32s的model,训练FCN16s,再应⽤得到的FCN16s 的model,训练FCN8s,得到最后的model,应⽤该model对⽹络正向传播,可以得到较好的表现结果。
在FCN模型中,由于经过多次卷积操作,特征图尺⼨越来越⼩,并且丢失了许多底层的图像信息,如果直接分类,会对分割精度造成影响,为此,在FCN在上采样过程采⽤skip策略,例如经过5次卷积(和pooling)以后,图像的分辨率依次缩⼩了2,4,8,16,32倍。对于最后⼀层的输出图像,需要进⾏32倍的上采样,以得到原图⼀样的⼤⼩。这个上采样是通过反卷积(deconvolution)实现的。对第5层的输出(32倍放⼤)反卷积到原图⼤⼩,得到的结果还是不够精确,⼀些细节⽆法恢复。于是Jonathan将第4层的输出和第3层的输出也依次反卷积,分别需要16倍和8倍上采样,结果就精细⼀些了。下图是这个卷积和反卷积上采样的过程:输⼊图像经过多次卷积,池化,得到不同层级的特征图,将卷积七次后得到的conv7层上采样后进⾏分类输出,得到FCN -32s的分割结果;将池化4次后得到的pool4层,与双线性插值法处理后的conv7层进⾏融⼊,上采样后进⾏分类得到FCN-16s的分割结果;将池化3次后得到的pool3层,与双线性插值法处理后的conv7和pool4层进⾏融合和,上采样后进⾏分类得到FCN-8s的分割结果;通过把深层数据和浅层信息相结合,再恢复到原图的输出,得到更准确的分割结果。
下图是32倍,16倍和8倍上采样得到的结果的对⽐,可以看到它们得到的结果越来越精确
四 FCN的优点和不⾜十一月
FCN能对图像进⾏像素级别分类,解决了语义分割的难题;同时与传统⽤CNN进⾏图像分割的⽅法相⽐,FCN可以接受任意⼤⼩的输⼊图像,⽽不⽤要求所有的训练图像和测试图像具有同样的尺⼨且是⾸个端到端的⽹络分割模型,另外更加⾼效,因为避免了由于使⽤像素块⽽带来的重复存储和计算卷积的问题。
同时FCN的缺点也⽐较明显:⼀是对图像的细节信息不够敏感。虽然进⾏8倍上采样虽然⽐32倍的效果好了很多,但是上采样的结果还是⽐较模糊和平滑。⼆是对各个像素进⾏分类,没有充分考虑像素与像素之间的关系,忽略了在通常的基于像素分类的分割⽅法中使⽤的空间规整(spatial regularization)步骤,缺乏空间⼀致性。
参考⽂献
1 Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for mantic gmentation.”Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.
2 黄鹏,郑淇,梁超.图像分割⽅法综述[J].武汉⼤学学报(理学版),2020,66(06):519-531.