DeformableConvolutionalNetworksv2可变形卷积v2论文理解(更新中)

更新时间:2023-05-12 14:24:08 阅读: 评论:0

DeformableConvolutionalNetworksv2可变形卷积v2论⽂理解
(更新中)
本论⽂的翻译版可以参考我的这篇博客:
知识栈
在阅读这篇论⽂时遇到了很多知识盲区和疑惑,所以途中阅读了很多其他论⽂和⽂章。现将其中感觉不错的记录如下:知识蒸馏⽹络:
teacher-student network:
RCNN, Fast RCNN, Faster RCNN:
⽬标检测中的feature mimicking:
RoI Pool究竟是什么东西?:
Aligned RoIpooling⼜是啥破玩样?:
双线性插值具体是怎么让偏移后的浮点数变为整数像素区域的?:
Spatial Transformer Networks 空间特征⽹络?:
“logits”到底是个什么意思?:
论⽂理解
下⾯正式开始记录对这篇论⽂的理解。
可变形卷积V1回顾
⾸先简单的回顾⼀下可变形卷积⽹络的第⼀个版本:(注:v1版本的理解抽空写博客附上连接)
可变形卷积v1版中作者通过引⼊offt来实现可变形卷积⽹络,提升了⽹络对⽬标⼏何变化的适应能⼒。并提出了可变 RoI池化。作者在V2中说明V1存在的问题是在RoI外部的这种⼏何变化适应性表现得不好,导致特征会受到⽆关的图像内容影响。并且可变形卷积有着很⼤的潜⼒,可以做出改进。
主要的改进
在第⼀版可变形卷积的基础上,作者主要进⾏了以下三个改进:
1、在特征提取⽹络的更多层中引⼊可变形卷积结构,从后⾯的实验来看,这个操作虽然简单,但是效果提升⾮常明显,只不过在v1论⽂中使⽤PASCAL VOC数据集,所以难以观察到这部分提升。
2、改进deformable结构,我们知道不管是deformable convolution还是deformable RoI pooling,主要通过引⼊offt,使得特征提取过程能够更加集中于有效信息区域,⽽这篇论⽂在v1的基础上引⼊了modulation,modulation简单⽽⾔就是权重,通过分配不同权重给经过offt修正后的区域,实现更加
准确的特征提取。
3、第2点的想法很好,但是从作者的实验来看,仅仅通过第2点带来的提升还是⽐较有限的,主要原因在于现有的损失函数难以监督模型对⽆关紧要的区域设置较⼩的权重,因此在模型训练阶段引⼊RCNN feature mimicking,通过联合训练RCNN⽹络提供有效的监督信息,发挥modulation的权重作⽤,使得提取到的特征更加集中于有效区域,因此和第2点是紧密结合的。
分析可变形卷积的⾏为
为了更好的分析可变形卷积的⾏为、进⾏⼀些可视化的分辅助分析⼯作,这篇论⽂引⼊了以下三个概念:
1.有效感受野(Effective receptive fields):⽹络中每个节点都会计算feature map的⼀个像素点,⽽这个点就有它⾃⼰的感受野,但是不是感受野中的所有像素对这个点的响应的贡献都是相同的,⼤⼩与卷积核权重有关,因此⽂中⽤有效感受野来表⽰这种贡献的差异。例下图:
2.有效采样/bin位置(Effective sampling/bin locations):对于卷积核的采样点和RoIpooling的bin的位置进⾏可是有助于理解DCN,有效位置在反应采样点位置的基础上还反应了每个位置的贡献。也就是有效的计算区域,这个在DCNv1论⽂中看得⽐较多了,简⽽⾔之就是⼏个卷积层叠加后从输出中的某个点往前推算出参与该点计算的特征点区域。例下图:
3.错误边界显著性区域(Error-bounded saliency regions):最近关于图像显著性的研究表明,对于⽹络的每个节点的响应,不是图像上所有的区域对其都有影响,去掉⼀些不重要的区域,节点的响应可以保持不变。根据这⼀性质,⽂章将每个节点的support region限制到了最⼩的可以和整幅图产⽣相同的响应的区域,并称之为错误边界显著性区域。例下图:
有了这三个可视化的分析⼯具后,可以更好对传统卷积,可变形卷积v1,可变形卷积v2各⾃的特点进⾏分析。可以得到以下的结论:
1、基于常规卷积层的深度⽹络对于形变⽬标有⼀定的学习能⼒,⽐如(a)中的最后⼀⾏,基本上都能覆盖对应的⽬标区域或者⾮⽬标区域,这主要归功于深度⽹络的拟合能⼒,这种拟合能⼒有点强⾏拟合的意思,所以才有DCN这种设计。
2、DCNv1对于形变⽬标的学习能⼒要⽐常规卷积强,能够获取更多有效的信息。⽐如(b)中的最后⼀⾏,当输出点位置在⽬标上时(前2张图),影响区域相⽐常规卷积⽽⾔更⼤。
3、DCNv2对于形变⽬标的学习能⼒⽐DCNv1更强,不仅能获取更多有效的信息,⽽且获取的信息更加准确,⽐如©中的最后⼀⾏,⽬标区域更加准确。因此简单来讲,DCNv1在有效信息获取⽅⾯的recall要⾼于常规卷积,⽽DCNv2不仅有较⾼的recall,⽽且有较⾼的precision,从⽽实现信息的精确提取。
对v1进⾏改进的具体操作
1.添加更多的可变形卷积层
作者发现可变形的conv层可以在具有挑战性的基准上有效地对⼏何变换进⾏建模,受此启发,作者⼤胆地⽤更多的可变形的conv层替换传统conv层。希望通过叠加更多的可变形conv层,进⼀步增强整个⽹络的⼏何变换建模能⼒。本⽂中,可变形卷积被应⽤到了ResNet-50中conv3, conv4, and conv5 阶
段中的全部3×3卷积层中。因此⽹络中有12层可变形卷积。相⽐之下,v1版本中只使⽤了三层可变形卷积,全部处于conv5阶段。
2.改进v1中的deformable convolution和deformable RoI pooling
由于不同的位置对检测的贡献是不同的,所以将这个思想引⼊到v1版本中的deformable convolution和deformable RoI pooling中,将他们修改为modulated deformable convolution和modulated deformable RoI pooling。
modulated deformable convolution的公式如下:(只是在v1公式的基础上乘了⼀个系数)
△mk就是modulation要学习的参数,这个参数的取值范围是[0,1],假如去掉这个参数,那么就是DCNv1中的deformable
convolution。从论⽂来看,△pk,△mk都是通过⼀个卷积层进⾏学习,因此卷积层的通道数是3K,其中2K表⽰△pk,这和DCNv1的内容是⼀样的,剩下K个通道的输出通过sigmoid层映射成[0,1]范围的值,就得到△mk。
modulated deformable RoI pooling的公式如下:(同理)
3.RCNN feature mimicking
作者发现对于RoI分类时,普通CNN或者DCN V1的错误边界显著性区域都会延伸到RoI之外,于是与RoI不相关的图像内容就会影响RoI特征的提取,从⽽可能影响⽬标检测的结果。不过R-CNN在进⾏分类时,结果完全是依赖于RoI的,因为R-CNN的分类branch的输⼊
就RoI的cropped image。作者借鉴知识蒸馏的思想,采⽤feature mimicking的⼿段在训练阶段进⾏RCNN feature mimcking
称左边的⽹络为主⽹络(Faster RCNN),右边的⽹络为⼦⽹络(RCNN)。实现上⼤致是⽤主⽹络训练过程中得到的RoI去裁剪原图,然后将裁剪到的图resize到224×224⼤⼩作为⼦⽹络的输⼊,⼦⽹络通过RCNN算法提取特征,最终提取到14×14⼤⼩的特征图,此时再结合IoU(此时的IoU就是⼀整
个输⼊图区域,也就是224×224)作为modulated deformable RoI pooling层的输⼊得到IoU特征,最后通过2个fc层得到1024维特征,这部分特征和主⽹络输出的1024维特征作为feature mimicking loss的输⼊,⽤来约束这2个特征的差异
那么为什么RCNN feature mimicking⽅法有效?因为RCNN这个⼦⽹络的输⼊就是RoI在原输⼊图像上裁剪出来的图像,因此不存在RoI 以外区域信息的⼲扰,这就使得RCNN这个⽹络训练得到的分类结果更加可靠,以此通过⼀个损失函数监督主⽹络Faster RCNN的分类⽀路训练就能够迫使⽹络提取到更多RoI内部特征,⽽这个迫使的过程主要就是通过添加的modulation机制和原有的offt实现。
feature mimicking loss采⽤余弦函数度量2个输⼊之间的差异,这是利⽤了余弦函数能够度量两个向量之间的⾓度的特性,其中
fRCNN(b)表⽰⼦⽹络输出的1024维特征,fFRCNN(b)表⽰主⽹络输出的1024维特征,通过对多个RoI的损失进⾏求和就得到Lmimic。实验
  上⾯的实验结果是在不同图像尺⼨下的对⽐实验,还没有加⼊R-CNN feature mimicking的⽅法,可以看到,可变形卷积的层数的堆叠对性能的提升是很明显的。
未完待续。。。。。。。

本文发布于:2023-05-12 14:24:08,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/600501.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   区域   变形
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图