【论文笔记】Mask2Former:Masked-attentionMaskTransfo。。。

更新时间:2023-05-19 15:15:59 阅读: 评论:0

【论⽂笔记】Mask2Former:Masked-attentionMaskTransfo。。。
本⽂提出了⽤于通⽤图像分割(全景、实例或语义)的 Masked-attention Mask Transformer (Mask2Former)。
高铁临时身份证怎么办理Mask2Former建⽴在⼀个简单的元框架 (MaskFormer)和⼀个新的 Transformer 解码器上,其关键组成部分为掩码注意⼒(Masked-attention),通过将交叉注意⼒限制在预测的掩码区域内来提取局部特征。
与为每个任务(全景、实例或语义)设计专门模型相⽐,Mask2Former 节省了 3 倍的研究⼯作,并且有效节省计算资源。
Mask2Former 在全景分割(COCO 上的 57.8 PQ)、实例分割(COCO 上的 50.1 AP)和语义分割(A
DE20K 上的 57.7 mIoU)上都实现了SOTA。
本⽂提出的关键改进在于:
1、在 Transformer 解码器中使⽤屏蔽注意⼒,将注意⼒限制在以预测段为中⼼的局部特征上(根据分组的特定语义,可以是对象或区域)。与关注所有位置的标准 Transformer 解码器中使⽤的交叉注意⼒相⽐,掩码注意⼒可以得到更快的收敛和更好的性能。
2、使⽤多尺度⾼分辨率特征,帮助模型分割⼩对象/区域。
3、提出了优化改进,例如切换⾃注意⼒和交叉注意⼒的顺序,使查询特征可学习,去除dropout;所有这些都⽆需额外计算即可提⾼性能。
4、通过在K个随机采样点上计算掩码损失,在不影响性能的情况下节省了 3 倍的训练内存。
模型整体架构
本⽂的模型整体架构来⾃于MaskFormer的简单的元架构,由三个组件组成:
1. 主⼲特征提取器:从图像中提取低分辨率特征的;
花园里的萤火虫
2. 像素解码器:从主⼲的输出中逐渐上采样低分辨率特征⽣成⾼分辨率的每像素嵌⼊;
3. Transformer 解码器:对图像特征进⾏操作以处理对象查询。 最终的⼆元掩码预测是从带有对象查询的每像素嵌⼊中解码的。
本⽂主要改进在Transformer 解码器中。
儿童黑眼圈
屏蔽注意⼒(Masked Attention)
妙法寺>东北大学是几本Masked Attention 操作符,通过将交叉注意⼒限制在每个查询的预测掩码的前景区域内来提取局部特征,⽽不是关注完整的特征图。
标准交叉注意(带有残差路径)计算公式如下
掩码注意⼒通过添加掩码值调节注意⼒矩阵
⾼分辨率特征
⾼分辨率特征可以提⾼模型性能,特别是对于⼩⽬标。但增加了对计算的要求。微信电脑怎么截图
本⽂提出了⼀种有效的多尺度策略来引⼊⾼分辨率特征,同时控制计算量的增加。
利⽤⼀个由低分辨率和⾼分辨率特征组成的特征⾦字塔,并将多尺度特征的不同尺度特征分别馈送到不同的Transformer解码器层。对于每个分辨率,添加了⼀个正弦位置嵌⼊以及⼀个可学习的尺度级嵌⼊。
重复3层Transformer 解码器L次,最终的 Transformer 解码器因此具有 3L层。
Transformer 解码器优化改进
为了优化 Transformer 解码器设计,进⾏了以下三点改进:
1、切换⾃注意⼒和交叉注意⼒(新的“掩蔽注意⼒”)的顺序以使计算更有效:对第⼀个⾃注意⼒层的查询特征还不依赖于图像特征,因此应⽤⾃注意⼒不会产⽣任何意义。
2、使查询特征(X0)也可学习(仍然保留可学习的查询位置嵌⼊),并且可学习的查询特征在⽤于 Transformer 解码器的预测掩码
(M0)之前直接受到监督。 作者发现这些可学习的查询特征功能类似于region proposal network [43],并且能够⽣成掩码proposals。
录音技术3、dropout 不是必需的,通常会降低性能。作者因此在解码器中完全删除了 dropout。
顶岗实习月报提⾼训练效率
训练通⽤架构的⼀个限制是由于⾼分辨率掩码预测⽽导致的⼤量内存消耗,这使得它们⽐对内存更友好的专⽤架构更难以接收。例
如,MaskFormer 只能在具有 32G 内存的 GPU 中容纳单个图像。
受 PointRend [30] 和 Implicit PointRend [13] 的启发,可以通过在 K个随机采样点⽽不是整个掩码上计算掩码损失来训练分割模型。在本⽂中设置K=12544,即112×112点。
本⽂在匹配损失和最终损失计算中使⽤采样点计算掩码损失。
在构建⼆分匹配成本矩阵的匹配损失中,对所有预测和真实掩码的相同的 K 点集进⾏均匀采样。
在预测之间的最终损失及其匹配的ground truth中,使⽤重要性采样[30]为不同的预测和ground truth对不同的K点集进⾏采样。
这种训练策略有效地将训练内存减少了 3 倍,从每张图像 18GB 到 6GB。
训练细节
使⽤ AdamW [38] 优化器和步进式学习率计划。
对所有主⼲使⽤ 0.0001 的初始学习率和 0.05 的权重衰减。
模型训练 50 个epochs,批次⼤⼩为 16。
对于数据增强,使⽤⼤规模抖动 (LSJ) 增强 ,随机尺度从 0.1 到 2.0 范围内采样,然后是固定⼤⼩的
裁剪到 1024×1024。

本文发布于:2023-05-19 15:15:59,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/917554.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   注意   掩码   查询
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图