LocalizationDistillationforDenObjectDetection

更新时间:2023-06-07 10:53:17 阅读: 评论:0

LocalizationDistillationforDenObjectDetection
摘要
知识蒸馏(KD)见证了其在对象检测中学习紧凑模型的强⼤能⼒。以前的⽬标检测 KD ⽅法主要集中在模仿深度特征,⽽不是模仿分类logits,因为它在提取定位信息⽅⾯效率低下。在本⽂中,通过重新定义位置信息的知识蒸馏过程,我们提出了⼀种新的位置蒸馏(LD)⽅法,可以有效地将位置知识从教师转移到学⽣。此外,我们还启发式地引⼊了有价值的区域位置概念,可以帮助选择性地提取特定区域的语义和定位知识。结合这两个新组件,我们⾸次证明 logits 模仿可以胜过特征模仿,并且定位知识蒸馏⽐语义知识蒸馏对象检测器更重要和更有效。我们的蒸馏⽅案既简单⼜有效,可以很容易地应⽤于不同的密集物体检测器。实验表明,我们的 LD 可以在 COCO 基准上以单尺度1× 训练计划将 GfocalResNet-50 的 AP 分数从 40.1 提⾼到 42.1,⽽不会牺牲推理速度。
1.介绍
定位是对象检测中的⼀个基本问题。边界框回归是迄今为⽌⽬标检测中最流⾏的定位⽅法,其中 Dirac delta 分布表⽰直观且流⾏多年。然⽽,定位模糊性仍然是⼀个常见的问题,其中对象不能通过它们的边缘被确定地定位。例如,图1所⽰,“elephant”的底部边缘
和“surfboard”的右侧边缘难以定位。对于轻量级检测器,这个问题甚⾄更糟。缓解这个问题的⼀种⽅法是知识蒸馏(KD),它作为⼀种模型压缩技术,已被⼴泛验证可⽤于通过转移⼤型教师⽹络捕获的通⽤知识来提⾼⼩型学⽣⽹络的性能。
谈到对象检测中的KD,先前的⼯作已经指出⽤于分类的传统logit模仿技术是低效的,因为它只传递语义知识(即分类),⽽忽略了位置信息提取的重要性。因此,现有的⽤于对象检测的KD⽅法主要集中于加强师⽣对之间的深层特征的⼀致性,并利⽤各种模拟区域进⾏蒸馏提取。图2展⽰了⽤于对象检测的三种流⾏的KD流⽔线。然⽽,由于语义知识和本地化知识在特征图上是混合的,因此很难判断为每个位置转移混合知识是否有利于性能,以及哪些区域有利于某种类型知识的转移。受上述问题的驱动,本⽂不再简单地提取特征图上的混合知识,我们提出了⼀种新的分⽽治之的提取策略,分别转移语义和位置知识。对于语义知识,我们使⽤原始分类KD,对于位置知识,我们通过将边界框转换为概
率分布,重新描述了定位知识的传递过程,并提出了⼀种简单⽽有效的位置提取⽅法。这与以前的⼯作⼤不相同,以前的⼯作将教师的输出视为额外的回归⽬标(即图2中的伪BBox回归)。益于概率分布表⽰,我们的LD可以有效地将教师学到的丰富的位置知识传递给学⽣。此外,基于提出的分治策略,我们进⼀步引⼊有价值的定位区域(VLR)来帮助有效地判断哪些区域有利于分类或定位学习。通过⼀系列的实验,我们第⼀次证明了原始的logit模仿可以⽐特征的模仿更好,位置知识的提炼⽐语义知识更重要和更有效。我们相信,基于语义和位置知识各⾃的有利区域来分别提取它们可能是训练更好的对象检测器的有前途的⽅法。坚持到底英文
(其中分类head上是logit mimicking(分类KD),特征图上是Feature imitation (teacher与student特征图之间的L2 loss),定位head上是伪bbox regression,即把teacher预测框当成额外的回归⽬标。
L2loss:均⽅误差是最常⽤的回归损失函数,它是我们的⽬标变量和预测值的差值平⽅和。)
我们的⽅法是简单的,可以很容易地配备在任何密集的对象检测器,以改善其性能,⽽不会引⼊任何推理开销。对MS COCO的⼤量实验表明,在没有花哨功能的情况下,我们可以将具有ResNet-50-FPN主⼲的强基线GFocal [25]的AP分数从40.1提升到42.1,将AP75从43.1提升到45.6。我们使⽤ResNeXt-101-32x4d-DCN主⼲的最佳型号可以实现50.5 AP的单标度测试,这超过了相同主⼲、颈部和测试设置下的所有现有检测器。
2.相关⼯作
在这⼀部分,我们对相关的⼯作进⾏了简要的回顾,包括BBOX回归、位置质量评估和知识提取
spreadsheet2.1BBOX回归
Bbox回归是⽬标检测中最流⾏的定位⽅法。R-CNN系列采⽤多元回归阶段细化检测结果,⽽[2,29,37–39,45]采⽤one-stage回归。在[41,54,61,62]中,提出了基于IoU的损失函数来提bbox的定位质量。最近,bbox表⽰已经从Dirac delta分布[29,37,40]发展到⾼斯分布[6,16],并进⼀步发展到概率分布[25,35]。Bbox的概率分布更全⾯地描述了Bbox的不确定性,是迄今为⽌最先进的Bbox表⽰⽅法。
2.2 位置质量评估
顾名思义,位置质量评估 (LQE) 预测⼀个分数,该分数衡量检测器预测的边界框的定位质量。 LQE 通常⽤于在训练期间配合分类任务[24],即增强分类和位置之间的⼀致性。它也可以应⽤于后处理期间的联合决策[19,37,45],即在执⾏ NMS 时同时考虑分类分数和LQE。早期的研究可以追溯到 YOLOv1 [37],其中预测的对象置信度⽤于惩罚分类分数。然后,提出了 box/mask IoU [18,19] 和box/polar center-ness [45, 49] 来分别对物体检测和实例分割的检测不确定性进⾏建模。从边界框表⽰的⾓度来看,Softer-NMS [16]和 Gaussian YOLOv3 [6] 预测边界框每个边缘的⽅差。 LQE 是⼀种对本地化模糊建模的初步⽅法。
2.3知识蒸馏
yahoo finance知识蒸馏 [1, 17, 31, 34, 43, 55] 旨在学习由优秀教师⽹络引导的紧凑⾼效的学⽣模型。 FitNets [42] 建议模仿来⾃教师模型隐藏层的中间级提⽰。知识蒸馏⾸先应⽤于 [4] 中的对象检测,其中提⽰学习和 KD 都⽤于多类对象检测。之后Li等⼈提议模仿 Faster R-CNN 区域提议中的特征。王等⼈。 [48] 模仿了靠近锚盒位置的细粒度特征。最近,戴等⼈。 [7] 引⼊了通⽤实例选择模块来模拟师⽣对之间判别补丁中的深层特征。 DeFeat [14] 在对⽬标区域和背景区域进⾏特征模仿时利⽤不同的损失权重。与上述基于特征模仿的⽅法不同,我们的⼯作引⼊了定位蒸馏,并提出基于有价值的定位区域分别传递分类和定位知识,以提⾼蒸馏效率。
3.Propod Method
在本节中,我们介绍所提出的蒸馏⽅法。我们没有在特征图上提取混合知识,⽽是提出了⼀种新的分⽽治之的蒸馏策略,该策略根据各⾃的⾸选区域分别提取语义和定位知识。为了转移语义知识,我们简单地在分类头上采⽤分类 KD [17],⽽对于定位知识,我们提出了⼀种简单⽽有效的定位蒸馏(LD)。这两种技术都在单个头部的逻辑上运⾏,⽽不是深度特征。然后,为了进⼀步提⾼蒸馏效率,我们引⼊了有价值的定位区域(VLR),可以帮助判断哪种类型的知识有利于不同区域的迁移。在下⽂中,我们⾸先简要回顾边界框的概率分布表⽰,然后过渡到所提出的⽅法。
泰剧爱的痕迹3.1引⾔
对于给定的边界框 B,常规表⽰有两种形式,即 {x, y, w, h}(中⼼点坐标,宽度和⾼度)[29, 37, 40] 和 {t, b, l, r }(从采样点到上、下、左、右边缘的距离)[45]。这两种形式实际上遵循 Dirac delta 分布,该分布仅关注真实位置,但不能对边界框的模糊性进⾏建模,如图 1所⽰。这在以前的⼀些⼯作中也得到了清楚的证明 [16, 25]。
在我们的⽅法中,我们使⽤最近的边界框概率分布表⽰[25, 35],它更全⾯地描述了边界框的定位不确定性。设 e ∈ B 是边界框的⼀条边。它的值⼀般可以表⽰为:
其中x是[emin, emax]范围内的回归坐标,Pr(x)是相应的概率。传统的Dirac delta表⽰是等式的⼀个特例。 (1),其中当x = egt时Pr(x) = 1,否则Pr(x) = 0。通过将连续回归范围[emin, emax]量化为均匀离散化变量e = [e1, e2,··· , en]T ∈ Rn 有 n 个⼦区间,其中 e1 = emin 和 en = emax,给定边界框的每条边可以使⽤ SoftMax 函数表⽰为概率分布。
3.2位置蒸馏
在本⼩节中,我们将介绍定位蒸馏 (LD),这是⼀种提⾼⽬标检测蒸馏效率的新⽅法。我们的 LD 是从边界框的概率分布表⽰ [25] 的⾓度演变⽽来的,边界框最初是为通⽤⽬标检测⽽设计的,并带有丰富的定位信息。图1中的模糊边缘和清晰边缘将分别通过分布的平坦度和锐度来体现。矮个子女生穿衣搭配
我们的 LD 的⼯作原理如图 3 所⽰。给定⼀个任意密集对象检测器,按照 [25],我们⾸先将边界框表⽰从四元表⽰转换为概率分布。我们选择 B = {t, b, l, r} 作为边界框的基本形式。与{x, y, w, h}形式不同,{t, b, l, r}形式中每个变量的物理意义是⼀致的,⽅便我们将每条边的概率分布限制为相同区间范围。根据[60],两种形式之间没有性能差异。因此,当给出 {x, y, w, h} 形式时,我们将⾸先将其切换为 {t, b, l, r} 形式。
设z是定位头为边e的所有可能位置预测的n个逻辑值,分别由⽼师和学⽣的zT和zS表⽰。
设z是定位头为边e的所有可能位置预测的n个逻辑值,⽼师和学⽣分别由zT和zS表⽰。与 [25,35] 不同,我们使⽤⼴义 SoftMax 函数
S(·, τ) = SoftMax(·/τ) 将 zT 和 zS 转换为概率分布 pT 和 pS。注意,当 τ = 1 时,它等价于原始的 SoftMax 函数。当 τ → 0时,趋向于狄拉克 delta 分布。当 τ → ∞ 时,它将退化为均匀分布。经验上,τ > 1 被设置为软化分布,使概率分布携带更多信息。
⽤于测量两个概率分布pT,pS ∈ Rn之间的相似性的局部化提取通过下式获得:
企业人力资源管理系统其中LKL代表KL-Divergence损失。然后,边界框B的所有四条边的LD可以被公式化为:
讨论。我们的LD是第⼀次尝试采⽤logit mim-icking来提取⽬标检测的定位知识。尽管boxes的概率分布表⽰已经被证明在通⽤对象检测任务中是有⽤的[25],但是没有⼈探索它在定位知识提炼中的性能。我们结合了盒的概率分布表⽰和KLDivergence损失,并证明了这种简单的logit mim-icking在提⾼对象检测器的提取效率⽅⾯表现良好。这也使得我们的LD与之前的相关作品⼤相径庭,反⽽强调了特征模仿的重要性。在我们的实验部分,我们将对所提出的LD的优点进⾏更多的数值分析。
3.3有价值的定位区域
以前的作品⼤多通过最⼩化L2损失来迫使学⽣模仿⽼师的深层特征。然⽽,⼀个直截了当的问题应该是:我们应该不加区别地使⽤整个模仿区域来提取混合知识?根据我们的观察,答案是否定的。在这⼀⼩节中,我们描述了有价值的定位区域(VLR),以进⼀步提⾼提取效率,我们认为这将是⼀种有希望的训练更好的学⽣检测器的⽅法。
kristen ritter
具体来说,提取区域分为两部分,主要蒸馏区和有价值局部区域。主蒸馏区域通过标记分配,即检测头的正位置,直观地确定。通过算法1可以获得有价值的定位区域。⾸先,对于第l-th FPN⽔平,我们计算所有anchor boxes Bal和ground-truth boxes Bgt之间的DIoU[61]矩阵Xl。然后,我们设定DIoU的下界为αvl = γαpos,其中αpos为标签分配的正IoU阈值。VLR可以定义为Vl = {αvl <= Xl <= αpos}。我们的⽅法只有⼀个超参数γ,它控制VLRs的范围。当γ = 0时,anchor boxes与GT boxs之间的DIoUs满⾜
0≤xilj≤αpos的所有位置将被确定为VLRs。当γ→ 1时,VLR会逐渐收缩到空。这⾥我们使⽤DIoU[61],因为它给予靠近物体中⼼的位置更⾼的优先权。
类似于标签分配,我们的⽅法将属性分配给多级FPN中的每个位置。这样,也将考虑GTboxs外的⼀些位置。因此,我们实际上可以把VLR 看作是主蒸馏区的向外延伸。注意,对于⽆锚检测器,如FCOS [45],我们可以使⽤特征图上的预设锚框,并且不改变其回归形式,使得定位学习保持为⽆锚类型。⽽对于基于锚的检测器,如RetinaNet [27],通常在每个位置设置多个锚,我们展开锚盒来计算DIoU矩阵,然后分配它们的属性。冬季长裙搭配
3.4总蒸馏过程
训练学⽣的总损失S可以表⽰为:
ma是什么意思
其中前三项与任何基于回归的检测器的分类和边界框回归分⽀完全相同,即Lcls是分类损失,Lreg是边界框回归损失,LDFL是分布焦点损失[25]。IMain和IVL分别是主要提取区域和有价值的定位区域的提取掩码,LKD是KD损失[17],CS和CT分别表⽰学⽣和教师的分类头输出logits,Cgt是基础真实类标签。所有蒸馏损失将根据其类型⽤相同的权重因⼦进⾏加权,例如,LD损失遵循bbox回归,KD损
summervacation失遵循分类。此外,值得⼀提的是,DFL损失项可以禁⽤,因为LD损失具有⾜够的导向能⼒。此外,我们可以启⽤或禁⽤四种蒸馏损失,以便以单独蒸馏区域的⽅式蒸馏学⽣
4.实验
在本节中,我们进⾏了全⾯的消融研究和分析,以证明在具有挑战性的⼤规模MS COCO [28]基准测试中提出的LD和蒸馏⽅案的优越性

本文发布于:2023-06-07 10:53:17,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/893272.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:知识   定位   位置   区域   蒸馏   模仿
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图