SENet（Squeeze-and-ExcitationNetworks）算法笔记

更新时间:2023-06-06 02:26:43 阅读：评论：0

mars是什么意思

symmetrySENet（Squeeze-and-ExcitationNetworks）算法笔记

Sequeeze-and-Excitation(SE) block并不是⼀个完整的⽹络结构，⽽是⼀个⼦结构，可以嵌到其他分类或检测模型中，作者采⽤SENet block和ResNeXt结合在ILSVRC 2017的分类项⽬中拿到第⼀，在ImageNet数据集上将top-5 error降低到2.251%，原先的最好成绩是2.991%。

作者在⽂中将SENet block插⼊到现有的多种分类⽹络中，都取得了不错的效果。SENet的核⼼思想在于通过⽹络根据loss去学习特征权重，使得有效的feature map权重⼤，⽆效或效果⼩的feature map权重⼩的⽅式训练模型达到更好的结果。当然，SE block嵌在原有的⼀些分类⽹络中不可避免地增加了⼀些参数和计算量，但是在效果⾯前还是可以接受的。

也许通过给某⼀层特征配备权重的想法很多⼈都有，那为什么只有SENet成功了？个⼈认为主要原因在于权重具体怎么训练得到。就像有些是直接根据feature map的数值分布来判断；有些可能也利⽤了loss来指导权重的训练，不过全局信息该怎么获取和利⽤也是因⼈⽽异。

put up什么意思

Figure1表⽰⼀个SE block。主要包含Squeeze和Excitation两部分，接下来结合公式来讲解Figure1。

⾸先Ftr这⼀步是转换操作（严格讲并不属于SENet，⽽是属于原⽹络，可以看后⾯SENet和Inception及ResNet⽹络的结合），在⽂中就是⼀个标准的卷积操作⽽已，输⼊输出的定义如下表⽰。

honker

那么这个Ftr的公式就是下⾯的公式1（卷积操作，vc表⽰第c个卷积核，xs表⽰第s个输⼊）。

升值英文

实习医生格蕾第九季

Ftr得到的U就是Figure1中的左边第⼆个三维矩阵，也叫tensor，或者叫C个⼤⼩为H*W的feature map。⽽uc表⽰U中第c个⼆维矩阵，下标c表⽰channel。

接下来就是Squeeze操作，公式⾮常简单，就是⼀个global average pooling：

商务英语高级

因此公式2就将H W C的输⼊转换成11C的输出，对应Figure1中的Fsq操作。为什么会有这⼀步呢？这⼀步的结果相当于表明该层C个feature map的数值分布情况，或者叫全局信息。

cute怎么读语音再接下来就是Excitation操作，如公式3。直接看最后⼀个等号，前⾯squeeze得到的结果是z，这⾥先⽤W1乘以z，就是⼀个全连接层操作，W1的维度是C/r * C，这个r是⼀个缩放参数，在⽂中取的是16，这个参数的⽬的是为了减少channel个数从⽽降低计算量。⼜因为z的维度是11C，所以W1z的结果就是11C/r；然后再经过⼀个ReLU层，输出的维度不变；然后再和W2相乘，和W2相乘也是⼀个全连接层的过程，W2的维度是C*C/r，因此输出的维度就是11C；最后再经过sigmoid函数，得到s。

也就是说最后得到的这个s的维度是11C，C表⽰channel数⽬。这个s其实是本⽂的核⼼，它是⽤来刻画tensor U中C个feature map的权重。⽽且这个权重是通过前⾯这些全连接层和⾮线性层学习得到的，因此可以end-to-end训练。这两个全连接层的作⽤就是融合各通道的feature map信息，因为前⾯的squeeze都是在某个channel的feature map⾥⾯操作。

在得到s之后，就可以对原来的tensor U操作了，就是下⾯的公式4。也很简单，就是channel-wi multiplication，什么意思呢？uc是⼀个⼆维矩阵，sc是⼀个数，也就是权重，因此相当于把uc矩阵中的每个值都乘以sc。对应Figure1中的Fscale。

beard是什么意思

了解完上⾯的公式，就可以看看在实际⽹络中怎么添加SE block。Figure2是在Inception中加⼊SE block的情况，这⾥的Inception部分就对应Figure1中的Ftr操作。

Figure3是在ResNet中添加SE block的情况。

看完结构，再来看添加了SE block后，模型的参数到底增加了多少。其实从前⾯的介绍可以看出增加的参数主要来⾃两个全连接层，两个全连接层的维度都是C/r * C，那么这两个全连接层的参数量就是2*C^2/r。以ResNet为例，假设ResNet⼀共包含S个stage，每个Stage包含N个重复的residual block，那么整个添加了SE block的ResNet增加的参数量就是下⾯的公式：

除了公式介绍，⽂中还举了更详细的例⼦来说明参数增加⼤概是多少百分⽐：In total, SE-ResNet-50 introduces 2.5 million additional parameters beyond the 25 million parameters required by ResNet-50, corresponding to a 10% increa in the total number of parameters。⽽且从公式5可以看出，增加的参数和C关系很⼤，⽽⽹络越到⾼层，其feature map的channel个数越多，也就是C越⼤，因此⼤部分增加的参数都是在⾼层。同时作者通过实验发现即便去掉最后⼀个stage的SE block，对模型的影响也⾮常⼩（<0.1% top-1 error），因此如果你对参数量的限制要求很⾼，倒是可以这么做，毕竟具体在哪些stage，哪些block中添加SE block都是⾃由定义的。

Table2是将SE block添加到ResNet，ResNeXt和Inception三个模型中的效果对⽐，数据集都是ImageNet，可以看出计算复杂度的增加并不明显（增加的主要是全连接层，全连接层其实主要还是增加参数量，对速度影响不会太⼤）。

既然是冠军算法，⽂中也介绍了当时取得冠军时的算法⼤致组成：Our winning entry comprid a small enmble of SENets that employed a standard multi-scale and multi-crop fusion strategy to obtain a 2.251% top-5 error on the test t.This result reprents a 25% relative improvement on the winning entry of 2016 (2.99% top-5 error). 也就是说其实是多模型做了融合。

⽽在融合的多个模型之中：One of our high-performing networks is constructed by integrating SE blocks with a modified ResNeXt，也就是Table3中最后⼀⾏的SENet！具体⽽⾔是在64*4d 的ResNeXt-152⽹络中引⼊了SE block。⽽这个ResNeXt-152是在ResNeXt-101的基础上根据ResNet-152的叠加⽅式改造出来的，因为原来的ResNeXt⽂章中并没有提到152层的ResNeXt，具体改造可以看⽂章的附录，附录的⼀些细节可以在以后应⽤中参考。从Table3可以看出即便是单模型，SENet的效果也⽐其他算法要好。

extendexpand另外前⾯提到过在SE block中第⼀个全连接层的维度是C/r * C，这个r在⽂中取的是16，作⽤在于将原来输⼊是11C的feature map缩减为11C/r的feature map，这⼀就降低了后⾯的计算量。⽽下⾯的Table5则是关于这个参数r取不同值时对结果和模型⼤⼩的影响。

最后，除了在ImageNet数据集上做实验，作者还在Places365-Challenge数据集上做了对⽐，更多实验结果可以参看论⽂。

附：看了下caffe代码（.prototxt⽂件），和⽂章的实现还有些不⼀样。下图是在Inception中添加SENet的可视化结果：SE-BN-Inception，在Inception中是在每个Inception的后⾯连上⼀个SENet，下图的上⾯⼀半就是⼀个Inception，下⾯⼀半就是⼀个SENet，然后这个SENet下⾯⼜连着⼀个新的Inception。

注意看这个SENet的红⾊部分都是⽤卷积操作代替⽂中的全连接层操作实现的，本质上没有什么区别。具体来说，inception_3a_11_down 是输出channel为16的11卷积，其输⼊channel是256，这也符合⽂中说的缩减因⼦为16（256/16=16）；⽽inception_3a_11_up是输出channel为256的11卷积。其它层都和⽂中描述⼀致，⽐如inception_3a_global_pool是average pooling，inception_3a_prob是sigmoid函数。

SE-ResNet-50的情况也类似，如下图。在ResNet中都是在Residual block中嵌⼊SENet。下图最左边的长条连线是原来Residual block 的skip connection，右下⾓的conv2_2_global_pool到conv2_2_prob以及左边那条连线都是SENet。不过也是⽤两个1*1卷积代替⽂中的两个全连接层。

本文发布于:2023-06-06 02:26:43，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/135430.html

上一篇：中国阀门十大知名品牌(中英文)

下一篇：新视野大学英语(第三版)读写教程Book1-Unit2-A词汇解析

标签：增加模型权重参数操作公式结果

留言与评论（共有 0 条评论）