CVPR2022⽂章速读:MixFormer
MixFormer:End-to-EndTrackingwithIterativeMixedAttention
1.⽂章动机
⽬前的跟踪器⼤多都是有三部分组成,其中包括了特征提取模块(backbone),特征融合模块(integrationmodule),⽬标估计模块
(predictedhead)。为了简化跟踪流程,该⽂提出了⼀个紧凑的跟踪框架,称为MixFormer。该框架仅由两部分组成,⼀个是基于⽬标-
搜索区域混合注意的⾻⼲⽹络,另⼀个就是⼀个简单的定位⽹络。
2.⽅法
2.1MixedAttentionModule
提出了⼀个MixedAttentionModule(MAM),⽤来统⼀特征提取过程和⽬标与搜索区域特征融合的过程。这种⽅案使得特征提取更加具体
到相应的跟踪⽬标。此外,更好的执⾏⽬标信息集成,从⽽更好地捕捉⽬标和搜索区域之间的相关性。
redictionModule
在线的模板可以捕获时间信息和处理对象变形和外观变化。SPM由两个注意⼒块和⼀个三层感知器组成。⾸先,可学习的分数标记⽤作查
询以参与搜索ROI标记。它使分数token能够对挖掘的⽬标信息进⾏编码。接下来,分数token关注初始⽬标token的所有位置,以隐式
地将挖掘的⽬标与第⼀个⽬标进⾏⽐较。最后,分数由MLP层和sigmoid激活产⽣。在线模板在其预测分数低于0.5时被视为负样本。
3.实验
3.1.模型结构
3.2Sota对⽐
5.结论
就今年的CVPR现有的⽂章来说,感觉现在的⽬标跟踪都是在不停的做⼤模型,真正对于⽬标跟踪任务中的来说,挖掘的却不够深刻。但就
其性能来说,确实是提升了很多,也是⼀篇很优秀的⼯作,给⼤家提供了模型构建的新⽅向。对于论⽂中在线模板的内容,和2021年
CVPR中的STMTrack中的⽐较相似。个⼈认为这种基于多模板的⽅法会在未来的⽬标跟踪领域成为⼀个热点,毕竟第⼀帧中的⽬标以及场
景信息是有限的,挖掘跟踪过程中的信息对于提升跟踪器性能来说⼗分重要。以上结论都是基于我⽬前的认知来说的,如有不妥敬请谅解。
同时也希望和有相同研究⽅向的⼩伙伴⼀起讨论。
本文发布于:2022-11-25 09:55:02,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/17784.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |