行为分析(五):姿态估计部分(四):Lite-HRNet

更新时间:2023-05-09 02:16:13 阅读: 评论:0

⾏为分析(五):姿态估计部分(四):Lite-HRNet
Lite-HRNet: A Lightweight High-Resolution Network
这个Lite版本的轻型⽹络在论⽂中给的指标对于模型压缩量极其可观,值得复现⼀下,故于此学习。
先写重要的
LiteNRNet的修改中关于条件加权通道是怎么实现的
其实这个想法很⾃然,Shuffle block在利⽤channel shuffle之后明显的减少了计算量,但是仍存在1x1卷积,HRNet是⼀个多分⽀、同时多分⽀信息交叉融合带来准确率提升的模型,⾃然⽽然的就想到了把1x1的卷积⽤信息交叉来替换,保证准确率的同时进⼀步减少压缩模型减少计算量
条件加权通道由交叉分辨率加权函数和空间加权函数两部分组成
H,也就是条件加权部分本质上就是收集HRNet中其他给分⽀分辨⼒的特征图并将他们加权后融合,权重由各分⽀的特征图的尺⼨计算,这是在根据信息的含量决定融合的强弱。
F,这⾥其实完全可以仍然使⽤1x1的卷积,F的这种操作可能本质上是想多⼀些可训练参数,进⽽提升
⽹络的表达能⼒。因为F本质上是⼀个全局池化加卷积加卷积的过程,这部分最⼤作⽤很可能就是为了引⼊这两个卷积。但由于是在分⽀上做卷积,输⼊输出的特征图都⽐较⼩,所以没有增加太多的计算量
摘要
图解
图1. 构建模块(a) shuffle模块 (b) 我们的条件通道加权模块。虚线表⽰从⼀个分辨率和分布权重到其他分辨率。H=交叉分辨率加权函数。F=空间加权函数。
图2. ⼩型 HRNet 架构的图⽰。第⼀阶段由⼀个⾼分辨率的主⼲组成,之后逐渐介⼊由⾼到低分辨率的流作为主体。主体有⼀系列阶段,每个阶段包含并⾏的多分辨率流和重复的多分辨率融合。详细信息在第 3 节中给出。
图3. COCO姿态估计的定性结果⽰例:包含视点变化、遮挡和多⼈情况
图4. COCO val和MPII val数据集的复杂性和准确性⽐较的图⽰。(a) 256x192输⼊⼤⼩下在COCO val集上的⽐较。 (b)  256x256输⼊⼤⼩下MPII val集上的⽐较。MBV2=MobileNet V2。SFV2= ShuffleNet V2。 SHR=Small HRNet-W16。 (W)LH=(Wider)Lite-HRNet。
表1. Lite-HRNet 的结构。主⼲包含⼀个stride=2的3x3卷积和⼀个shuffle模块。主体分为三个阶段,每个阶段都有⼀系列模块组成。每个模块由两个条件通道权重模块(conditional channel weight blocks)和⼀个融合(fusion block)模块组成。Lite-HRNet-N中的N表⽰层数。分辨率分⽀表⽰该阶段包含对应分辨率的特征流。ccw = 条件信道权重。
表2. 计算复杂度对⽐:1x1 convolution vs. conditional channel weight. Xs属于R^(Hs x Ws x Cs)是s分辨率的输⼊通道特征图,X1是最⾼的分辨率。Ns = HsWs。例如X1和X2的形状是64x64x40和32x32x80。single/cross-resolution是single/cross 分辨率信息交换。
表3. 在COCO val数据集上的对⽐。pretrain表⽰在ImageNet数据集上与训练的backbone。#Params和FLOPs是为姿态估计⽹络计算的,其中不包括⼈体检测和关键点分组部分。
梳理⽹络-预备知识
卷积后尺⼨的计算:Wo=(Wi + 2P -F)/S+1, Ho=(Hi + 2P -F)/S+1, C通道观察卷积类型可知。
不整除时,卷积向下取整,池化向上取整。因卷积向上取整没有对应信息,池化向上取整会有对应信息。
看到stride为1的时候,当kernel为 3 padding为1或者kernel为5 padding为2 卷积前后尺⼨不变
DWConv就是组卷积(Group Conv),不改变通道
native Lite-HRNet是指将shauffle moudle直接应⽤于HRNet
论⽂精读
introduction
⼈体姿态估计需要⾼分辨率表⽰[3, 2, 26, 41, 45]以实现⾼性能。受对模型效率⽇益增长的需求的推动,
本⽂研究了在计算资源有限的情况下开发⾼效⾼分辨率模型的问题。现有的⾼效⽹络[5, 6, 53]主要是从两个⾓度设计的。⼀种是借⽤分类⽹络的设计,例如
MobileNet[17, 16]和ShuffleNet[28, 57],以减少矩阵向量乘法中的冗余,其中卷积运算占据矩阵向量运算主要消耗。另⼀种是通过各种技巧来调解空间信息丢失,例如编码器-解码器架构[2, 26]和多分⽀架构[53, 59]。我们⾸先通过简单地结合ShuffleNet中的shuffle block和HRNet[41]中的⾼分辨率设计模式来研究⼀个朴素(native)的轻量级⽹络。 HRNet在位置敏感问题(positionnsitive problems)的⼤型模型中表现出更强的能⼒,例如语义分割、⼈体姿态估计和对象检测。⽬前尚不清楚⾼分辨率是否有助于⼩模型。我们凭经验表明,直接组合优于ShuffleNet、MobileNet和Small HRNet1。为了进⼀步实现更⾼的效率,我们引⼊了⼀个⾼效的单元,称为条件通道加权,执⾏跨通道的信息交换,以取代shuffle块中昂贵的逐点(1x1)卷积。这就是进⼀步压缩(或者说Lite-HRNet如此有效)的原因,即channel shuffle已经减少了计算量,现在连1x1的卷积也被取代了。通道加权⽅案⾮常有效:复杂度与通道数量成线性关系,并且低于逐点卷积的⼆次时间复杂度。例如,通过64x64x40和32x32x80的多分辨率特征,条件通道加权单元可以将shuffle块的整个计算复杂度降低80%。与作为模型参数学习的常规卷积核权重不同,所提出的⽅案权重以输⼊图为条件,并通过轻量级单元跨通道计算(Unlike the regular convolutional kernel weights learned as model parameters, the propod scheme weights are conditioned on the input maps and computed across channels through a lightweight unit.)。因此,
它们包含所有信道映射中的信息,并作为通过信道加权交换信息的桥梁。此外,我们从易于获得的HRNet并⾏多分辨率通道映射计算权重,以便权重包含更丰富的信息并得到加强。我们将⽣成的⽹络称为Lite-HRNet。
卷积权重⽣成和混合(Convolutional weight generation and mixing)
动态滤波器⽹络[21]动态⽣成以输⼊为条件的卷积滤波器。元⽹络[29]采⽤元学习器来⽣成权重以学习跨任务知识。CondINS[40]和SOLOV2[43]将此设计应⽤于实例分割任务,为每个实例⽣成掩码⼦⽹络的参数。CondConv[48]和Dynamic Convolution[5]学习⼀系列权重以混合每个样本的相应卷积核,增加模型容量。注意机制[19, 18, 44, 54]可以看作是⼀种条件权重⽣成。SENet[19]使⽤全局信息来学习激发或抑制通道映射的权重。GENet[18]通过收集本地信息来利⽤上下⽂相关性对此进⾏了扩展。CBAM[44]利⽤通道和空间注意⼒来细化特征。提出的条件通道加权⽅案在某种意义上可以被视为条件通道的1x1卷积。除了其廉价的计算之外,我们还利⽤了⼀个额外的效果并使⽤条件权重作为跨通道交换信息的桥梁。
条件架构(Conditional architecture)
与普通⽹络不同,条件架构可以实现动态的宽度、深度或内核。SkipNet[42]使⽤门控⽹络跳过⼀些卷积块以选择性地降低复杂性。空间变换⽹络[20]学习以输⼊为条件扭曲特征图。Deformable Convoluti
on[11,61]学习以每个空间位置为条件的卷积核的偏移量。
native LiteHRNet的产⽣
我们采⽤shuffle块替换Small HRNet的stem中的第⼆个3x3卷积,替换掉所有正常的残差块(由两个3×3卷积组成)。多分辨率融合中的正常卷积被可分离卷积替换[9],从⽽产⽣了⼀个朴素的Lite-HRNet。 注意这⾥是⽤shuffle替换掉了两处,第2个3x3常规卷积和残差。
1x1卷积代价⾼昂(1x1 convolution is costly)
1x1卷积在每个位置执⾏矩阵向量乘法:其中X和Y是输⼊和输出映射,W 是1x1卷积核。它在跨通道交换信息⽅⾯起着关键作⽤,因为shuffle 操作和深度卷积对跨通道的信息交换没有影响。1x1卷积的⼆次时间复杂度(O(C2))相对于数量(C)渠道。3x3深度卷积具有线性时间复杂度(O(9C)3)。在shuffle块中,两个1x1卷积的复杂度⽐depthwi卷积的复杂度⾼很多:O(2C2) > O(9C),对于通常的情况C > 5。表2给出了1x1之间复杂度⽐较的例⼦卷积和深度卷积。
条件信道加权(Conditional channel weighting)
我们建议使⽤element-wi加权操作来替换naive Lite-HRNet中的1x1卷积,它在第s阶段有s个分⽀。第s个分辨率分⽀的逐元素加权运算写为: Ys = Ws ●Xs; (2) 其中Ws是权重图,⼤⼩为Ws x Hs x C
s的3-d张量,并且是逐元素乘法运算符。复杂度与通道数 O(C) 呈线性关系,远低于shuffle块中的1x1卷积。我们通过使⽤单个分辨率的通道和所有分辨率的通道来计算权重,如图1(b)所⽰,并表明权重起到了跨通道和分辨率交换信息的作⽤。
跨分辨率权重计算(Cross-resolution weight computation)
考虑第s个阶段,有s个并⾏分辨率,s个权重图W1,W2,.....Ws,分别为对应的分辨率。我们使⽤轻量级函数Hs(·) 计算跨分辨率的所有通道的权重图,Hs(·)过程是先使⽤adaptive average pooling (AAP)在{X1, X2, X3,...Xs}上计算:X1' =AAP(X1),X2' =AAP(X2),Xs'
=AAP(Xs),其中AAP将任何输⼊⼤⼩池化为给定的输出⼤⼩Ws x Hs,然后我们将 {X1, X2, .....Xs} 和 Xs 连接在⼀起,然后是 1x1 卷积、ReLU、1x1卷积和sigmoid的序列,⽣成由s个分⽀{W1, W2, .. ...Ws}(每个⽤于⼀个分辨率)。
这⾥,每个分辨率的每个位置的权重取决于来⾃平均池化的多分辨率通道图中相同位置的通道特征。这就是我们称该⽅案为跨分辨率权重计算的原因。 s-1 权重图 {W1',W2',.....Ws-1'} 被上采样到相应的分辨率,输出 {W1,W2,.....Ws-1},⽤于后续逐元素通道加权。我们展⽰了权重图作为跨渠道和分辨率信息交换的桥梁。位置 i 处的权重向量 wsi 的每个元素(来⾃权重图 Ws)在同⼀池化区域接收来⾃所有 s 个分辨率的所有输⼊通道的信息,这很容易从等式 4 中的操作中验证。通过这样⼀个权重向量,
这个位置的每个输出通道,ysi = wsi ● xsi;接收来⾃所有分辨率相同位置的所有输⼊通道的信息。换句话说,通道加权⽅案在交换信息⽅⾯起到了和 1x1 卷积⼀样的作⽤。另⼀⽅⾯,函数Hs(·)应⽤于⼩分辨率,因此计算复杂度很轻。表 2 说明整个单元的复杂度远低于 1x1 卷积。
重点是Ys = Ws ● Xs公式(●是逐点点乘),Xs是上⼀步的输出,也就是这⼀步的输⼊,Ws的计算是条件加权模块的主要任务之⼀。Ws是⼀个ws x hs x cs3-d的向量,由公式{W1, W2, W3,...Ws}=Hs{X1, X2, X3,...Xs}计算得到,Hs具体过程是上⾯所述。⽂中给出的结论是:“通过这样⼀个权重向量,这个位置的每个输出通道,ysi = wsi ● xsi;接收来⾃所有分辨率相同位置的所有输⼊通道的信息。换句话说,通道加权⽅案在交换信息⽅⾯起到了和 1x1 卷积⼀样的作⽤”,同时减少了计算量。这⾥提到的1x1卷积的通道交换信息能⼒⽐较笼统,应该指得是C通道之间的信息交换,⽽不是后⾯DW的通道交换核融合部分。
空间权重计算(Spatial weight computation)
对于每个分辨率,我们还计算与空间位置同构的空间权重:所有位置的权重向量wsi都相同。权重取决于单⼀分辨率下输⼊通道的所有像素:ws = Fs(Xs),这⾥,函数 Fs(·) 实现为:Xs - GAP - FC - ReLU - FC - sigmoid - ws.全局平均池化(GAP)算⼦的作⽤是从所有位置收集空间信息。通过使⽤空间权重对通道进⾏加权,ys =ws x si,输出通道中的每个元素都接收来⾃所有输⼊通道的所有位置的贡献。我们在表2中⽐较了1x1卷积和条件通道加权单元之间的复杂性。
0804更新:注意跨通道和跨分辨率是不⼀样的
条件通道加权⽅案与条件卷积[48]、动态滤波器[21]和挤压激发⽹络[19]具有相同的原理。这些⼯作通过以输⼊特征为条件的⼦⽹络学习卷积核或混合权重,以增加模型容量。相反,我们的⽅法利⽤了⼀个额外的效果,并使⽤从所有通道中学到的权重作为跨通道和分辨率交换信息的桥梁。它可以替代轻量级⽹络中昂贵的1x1卷积。此外,我们引⼊了多分辨率信息来促进权重学习。
也就是说上⾯所述的1x1卷积具有通道信息交换能⼒是对的,⾄于分辨率交换是我们的条件加权模块所标新⽴异的点之⼀。
测试(test)
额外的半⾝数据增强(additional half body data augmentation)在⼈体姿态估计中很常见
对于COCO遵循[46, 7, 33],我们采⽤两阶段⾃顶向下范式(通过⼈员检测器检测⼈员实例并预测关键点)以及SimpleBaline[46]提供的⼈员检测器。对于MPII我们采⽤标准测试策略来使⽤提供的⼈员框。 我们通过后⾼斯滤波器估计热图,并对原始和翻转图像的预测热图进⾏平均。在从最⾼响应到第⼆⾼响应的⽅向上应⽤四分之⼀偏移以获得每个关键点位置。

本文发布于:2023-05-09 02:16:13,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/101408.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

下一篇:加权参数法
标签:通道   卷积   分辨率
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图