SemanticSegmentation--ImproveSemanticSegmenta。。。

更新时间:2023-05-16 04:22:35 阅读: 评论:0

SemanticSegmentation--ImproveSemanticSegmenta。。。
伦纳德 尼莫伊Large Kernel Matters —— GCN
论⽂全称:Large Kernel Matters——Improve Semantic Segmentation by Global Convolutional Network
作者栏⾥⾯有熟悉的Face++的Jian Sun~
原⽂地址:
实现代码:
elements
Abstract
在现有的模型架构设计中有这样⼀个趋势:
打针injection堆叠⼩卷积核⽐⼤卷积核更有效。(主要说的是VGG的和GoogleNet中的)。但考虑到Semantic Segmentation需要逐像素分割预测,要同时完成分割和预测(classification and localization tasks simultaneously)。
考虑到这⼀问题,提出了Global Convolutional Network(GCN),同时给出了⼀个基于残差(residual,即Resnet的主要贡献)的boundary refinement(BR)模块⽤于细化物体边界,论⽂在PASCAL VOC 2012(82.2%)和Cityscapes(76.9% )上达到了state-of-the-art.
Introduction
null 是什么意思
论⽂上来先分析Semantic Segmentation。
我们要做的任务分成两部分:classification&localization.
that is it论⽂指出这两部分在要义上是相互⽭盾的(the two tasks are naturally contradictory),从⽽论⽂提出了⼀个改进架构Global Convolutional Network(GCN)。
部分任务要义GCN的设计
classification 每个像素有对应的语义信
息,即分类要正确
要求模型对各种变换有不变形
(例如翻转和旋转)
⽹络应该采⽤较⼤的核,使得feature map与像素分类层之间有密切的连
接,从⽽增强处理不同变换的能⼒
localization 每个像素分类标签与对应的
种类对齐
要求对变换敏感,可以精确分
割像素
模型应该是完全卷积(没有FC或全局池化),保持定位信息
⼤致的⽰意图如下:
A. Classification : 多次提取⾼层次的feature map,然后做分类.
例如:AlexNet,VGGNet,GoogleNet,ResNet等,整体呈现的是“圆锥形⽹络”(Cone-shaped),这样的feature map的空间上是粗糙的(⾼语义的),分类任务可通过后续接FC层或全局池化层,这样有模型能接收不同类型的输⼊,保持较强的鲁棒性。
B. Segmentation : 输⼊和输出⼤⼩相同(feature map尺度没变),全卷积层最后每个通道对应⼀个分类结果.
这需要有较⼤的feature map保持空间信息。所有⼤多数模型例如:FCN,DeepLab,Deconv-Net采⽤桶状(Barrel-shaped)结构,使⽤Deconvolution, Unpooling 和Dilated-Convolution等技术反向⽣成⾼分辨率feature map.
C. GCN : 全卷积设计,最后分类使⽤了多通道的信息(和ShuffleNet有那么点神似).
考虑到B中分类器和feature map不是全局连接,难以处理输⼊上的变换。例如下图,分类器与输⼊对象的红点对齐,如果接收野不够⼤(valid receptive filed,VRF),则很难分别出来.如果使⽤更⼤的feature map,则效果更差.
⽽GCN就是在使⽤全卷积的结构上尽可能的使⽤⼤的卷积核,从⽽达到分类和分割平衡。
总结⼀下Paper的Contributions:
中国好声音背景英文歌
针对“classification” and “localization” 提出了GCN架构
引⼊边界细化模块(Boundary Refinement block)进⼀步提⾼物体边界的划分性能
在PASCAL VOC 2012(82.2%) and Cityscapes(76.9%)取得state-of-the-art.
Related Work
以FCN为基础,从三个⽅⾯尝试提⾼mantic gmentation 性能:
Context Embedding : 上下⽂语义嵌⼊。这⾥列举了⼀些⼯作:ParNet使⽤全局池化分⽀增加额外上下⽂信息;Dilated-Net使⽤空洞卷积增加上下⽂信息;Deeplab-V2使⽤Atrous Spatial Pyramid Pooling模块增加上下⽂信息.
Resolution Enlarging : FCN是使⽤deconvolution来提⾼层次的feature map的分辨率;在Deconv-Net和SegNet上采⽤
unpooling来学习上采样;Deeplab和Dilated-Net提出了⼀个特殊的dilated convolution来扩⼤feature map的⼤⼩,从⽽达到更⼤的分辨图.
Boundary Alignment : 边界对齐的任务是优化分割对象的边界预测。许多⽅法是使⽤CRF(条件随机场)。后续的Deeplab提出的denCRF等等⼀⼤堆的CRF改进版。
这⾥点出本⽂的看法:Semantic Segmentation是在⼤的feature map上的分类任务.(mantic gmentation is a classification task on large feature map)
Architecture
在GCN架构中,将核⼤⼩增加到feature map的空间⼤⼩,从⽽可以获取全局信息(Global Convolution)。这⾥没有直接使⽤⼤卷积核,⽽是采⽤GoogleNet的思想(可以参考我以前写的GoogleNet笔记),将⼤卷积核拆分为卷积组合,即GCN模块(下图F2.B),这⾥在卷积层后不使⽤⾮线性,保持计算复杂度为。
模型的整体架构如下(下图F2.A):
模型使⽤ResNet作为特征提取层(后⾯实验有介绍),使⽤FCN的结构作为分割架构。不同尺度的特征是从不同⼤⼩的feature map上提取的,对于不同层级的feature map使⽤GCN提取全局信息,同时⾼层次的feature map通过上采样来补充语义信息,最终融合得到预测图。这⾥提出了⼀个残差结构(residual structure)的BR模块(上图F2.C)学习边界信息。
Experiment
论⽂在PASCAL VOC 2012和Cityscapes上做了评估。computergame
项⽬属性
特征提取层预训练的Resnet152权重
优化器标准的SGD
internationaltradebatch size1
visit的用法权重衰减momentum 0.99 and weight decay 0.0005
数据增强去均值,⽔平翻转
度量标准标准平均IoU值
实现⼯具Caffe
实验⽅案
将输⼊放缩到,这样最终的feature map⼤⼩为,论⽂⽐较了四种结构,⽰意图如下:
B:单纯的卷积,提供⼀个baline
A:GCN结构,使⽤参数控制核⼤⼩,论⽂使⽤了不同(3到15,使⽤奇数保持对齐),论证了论⽂思想。在是接收野⼤概为,达到了“全局卷积”,在实验结果上来看,性能随着内核⼤⼩增加⽽增加,从⽽论证了GCN的设计思想。
C:考虑到模型性能提升可能是因为参数增加,这⾥设计⼀个的卷积核做对⽐,从结果来看,GCN结构⽐⼤卷积核效果好,可以看到随着k增加,⼤卷积核效果反倒下降了,这其中的原因可能是因为过拟合,在训练过程中,因为参数多,⽹络难以收敛,实际原因还有待研究
D:对于⼤卷积核,可以使⽤⼩卷积核堆叠达到类似的接收野,为了等效⽐较,在堆叠⼩卷积时没⽤使⽤⾮线性(在VGG那些⽹络中使⽤⾮线性了,但是计算量也上去了),结果是GCN好⼀点。
同时还⽐较了堆叠⼩卷积核数量的影响,随着卷积核数⽬减少性能也减少了,结果还是GCN好⼀点:
其他实验:为了进⼀步分析GCN是如何影响分割结果的,即论证GCN是通过引⼊密集连接来提⾼分类结果,通过BR来细化边缘分割,论⽂将评分分为两部分:
教师编制考试内容boundary region:像素点接近分割边缘的部分,取distance<7
internal region: 除了boundary region剩余的像素
实验结果如下():

本文发布于:2023-05-16 04:22:35,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/649519.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   分割   模型   信息   增加   分类   全局   性能
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图