带掩码的⾃编码器MAE详解和代码实现
监督学习是训练机器学习模型的传统⽅法,它在训练时每⼀个观察到的数据都需要有标注好的标签。如果我们有⼀种训练机器学习模型的⽅法不需要收集标签,会怎么样?如果我们从收集的相同数据中提取标签呢?这种类型的学习算法被称为⾃监督学习。这种⽅法在⾃然语⾔处理中⼯作得很好。⼀个例⼦是BERT¹,⾕歌⾃2019年以来⼀直在其搜索引擎中使⽤BERT¹。不幸的是,对于计算机视觉来说,情况并⾮如此。
Facebook AI的kaiming⼤神等⼈提出了⼀种带掩码⾃编码器(MAE)²,它基于(ViT)³架构。他们的⽅法在ImageNet上的表现要好于从零开始训练的VIT。在本⽂中,我们将深⼊研究他们的⽅法,并了解如何在代码中实现它。
带掩码⾃编码器(MAE)
对输⼊图像的patches进⾏随机掩码,然后重建缺失的像素。MAE基于两个核⼼设计。⾸先,开发了⼀个⾮对称的编码器-解码器架构,其中编码器仅对可见的patches⼦集(没有掩码的tokens)进⾏操作,同时还有⼀个轻量级的解码器,可以从潜在表⽰和掩码tokens重建原始图像。其次,发现对输⼊图像进⾏⾼⽐例的掩码,例如75%,会产⽣有意义的⾃监督任务。将这两种设计结合起来,能够⾼效地训练⼤型模型:加快模型训练速度(3倍甚⾄更多)并提⾼精度。
此阶段称为预训练,因为 MAE 模型稍后将⽤于下游任务,例如图像分类。 模型在pretext上的表现在⾃监督中并不重要, 这些任务的重点是让模型学习⼀个预期包含良好语义的中间表⽰。 在预训练阶段之后,解码器将被多层感知器 (MLP) 头或线性层取代,作为分类器输出对下游任务的预测。
模型架构
编码器
编码器是 ViT。 它接受张量形状为 (batch_size, RGB_channels, height, width) 的图像。 通过执⾏线性投影为每个Patch获得嵌⼊, 这是通过 2D 卷积层来完成。 然后张量在最后⼀个维度被展平(压扁),变成 (batch_size, encoder_embed_dim,
num_visible_patches),并 转置为形状(batch_size、num_visible_patches、encoder_embed_dim)的张量。
class PatchEmbed(nn.Module):
""" Image to Patch Embedding """
def __init__(lf, img_size=(224, 224), patch_size=(16, 16), in_chans=3, embed_dim=768):
super().__init__()
lf.img_size = img_size
lf.patch_size = patch_size
lf.num_patches = (img_size[1] // patch_size[1]) * (img_size[0] // patch_size[0])
lf.patch_shape = (img_size[0] // patch_size[0], img_size[1] // patch_size[1])
lf.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
def forward(lf, x, **kwargs):
B, C, H, W = x.shape
asrt H == lf.img_size[0] and W == lf.img_size[1], f"Input image size ({H}*{W}) doesn't match model ({lf.img_size[0]}*{lf.img_size[1]})."
x = lf.proj(x).flatten(2).transpo(1, 2)
return x
正如原始 Transformer 论⽂中提到的,位置编码添加了有关每个Patch位置的信息。 作者使⽤“sine-cosine”版本⽽不是可学习的位置嵌⼊。 下⾯的这个实现是⼀维版本。
def get_sinusoid_encoding_table(n_position, d_hid):
def get_position_angle_vec(position):
return [position / np.power(10000, 2 * (hid_j // 2) / d_hid) for hid_j in range(d_hid)]
sinusoid_table = np.array([get_position_angle_vec(pos_i) for pos_i in range(n_position)])
sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2]) # dim 2i
sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2]) # dim 2i+1
return torch.FloatTensor(sinusoid_table).unsqueeze(0)
与 Transformer 类似,每个块由norm层、多头注意⼒模块和前馈层组成。 中间输出形状是(batch_size、num_visible_patches、encoder_embed_dim)。 多头注意⼒模块的代码如下:
def __init__(lf, dim, num_heads=8, qkv_bias=Fal, qk_scale=None, attn_drop=0., proj_drop=0.,
attn_head_dim=None):
super().__init__()
lf.num_heads = num_heads
head_dim = attn_head_dim if attn_head_dim is not None el dim // num_heads
all_head_dim = head_dim * lf.num_heads
lf.scale = qk_scale or head_dim ** -0.5
lf.qkv = nn.Linear(dim, all_head_dim * 3, bias=Fal)
lf.q_bias = nn.s(all_head_dim)) if qkv_bias el None
lf.v_bias = nn.s(all_head_dim)) if qkv_bias el None
lf.attn_drop = nn.Dropout(attn_drop)
lf.proj = nn.Linear(all_head_dim, dim)
lf.proj_drop = nn.Dropout(proj_drop)
def forward(lf, x):
蕌头B, N, C = x.shape
qkv_bias = torch.cat((lf.q_bias, s_like(lf.v_bias, requires_grad=Fal), lf.v_bias)) if lf.q_bias is not None el None
qkv = F.linear(input=x, weight=lf.qkv.weight, bias=qkv_bias)
qkv = shape(B, N, 3, lf.num_heads, -1).permute(2, 0, 3, 1, 4)
q, k, v = qkv[0], qkv[1], qkv[2] # make torchscript happy (cannot u tensor as tuple)
q = q * lf.scale
attn = (q @ k.transpo(-2, -1)).softmax(dim=-1)
attn = lf.attn_drop(attn)
x = (attn @ v).transpo(1, 2).reshape(B, N, -1)
x = lf.proj_drop(lf.proj(x))
return x
Transformer 模块的代码如下:
class Block(nn.Module):
def __init__(lf, dim, num_heads, mlp_ratio=4., qkv_bias=Fal, qk_scale=None, drop=0., attn_drop=0.,act_layer=nn.GELU, norm_layer=nn.LayerNor m, attn_head_dim=None):
super().__init__()
<1 = norm_layer(dim)
lf.attn = Attention(
dim, num_heads=num_heads, qkv_bias=qkv_bias, qk_scale=qk_scale,
乌镇旅游景点attn_drop=attn_drop, proj_drop=drop, attn_head_dim=attn_head_dim)
<2 = norm_layer(dim)
lf.mlp = nn.Sequential(
nn.Linear(dim, int(dim * mlp_ratio)), act_layer(), nn.Linear(int(dim * mlp_ratio), dim), nn.Dropout(attn_drop)
)
def forward(lf, x):
榴莲鸡
x = x + lf.1(x))
x = x + lf.2(x))
return x
这部分仅⽤于下游任务的微调。 论⽂的模型遵循 ViT 架构,该架构具有⽤于分类的类令牌(patch)。 因此,他们添加了⼀个虚拟令牌,但是论⽂中也说到他们的⽅法在没有它的情况下也可以运⾏良好,因为对其他令牌执⾏了平均池化操作。 在这⾥也包含了实现的平均池化版本。 之后,添加⼀个线性层作为分类器。 最终的张量形状是 (batch_size, num_class)。
综上所述,编码器实现如下:
def __init__(lf, img_size=224, patch_size=16, in_chans=3, embed_dim=768, norm_layer=nn.LayerNorm, num_class=0, **block_kwargs):
super().__init__()
lf.num_class = num_class
lf.num_features = lf.embed_dim = embed_dim # num_features for consistency with other models
# Patch embedding
lf.patch_embed = PatchEmbed(img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dim)
num_patches = lf.patch_embed.num_patches
# Positional encoding
lf.pos_embed = get_sinusoid_encoding_table(num_patches, embed_dim)
# Transformer blocks
lf.blocks = nn.ModuleList([Block(**block_kwargs) for i in range(depth)]) # various arguments are not shown here for brevity purpos
英语课英语lf.norm = norm_layer(embed_dim)
# Classifier (for fine-tuning only)
lf.fc_norm = norm_layer(embed_dim)
lf.head = nn.Linear(embed_dim, num_class)
def forward(lf, x, mask):
x = lf.patch_embed(x)
x = x + lf.pe_as(x).to(x.device).clone().detach()
B, _, C = x.shape
if mask is not None: # for pretraining only
x = x[~mask].reshape(B, -1, C) # ~mask means visible
for blk in lf.blocks:
x = blk(x)
x = lf.norm(x)
if lf.num_class > 0: # for fine-tuning only
x = lf.fc_an(1)) # average pooling
x = lf.head(x)
return x
解码器
与编码器类似,解码器由⼀系列transformer 块组成。 在解码器的末端,有⼀个由norm层和前馈层组成的分类器。 输⼊张量的形状为batch_size, num_patches,decoder_embed_dim) ⽽最终输出张量的形状为 (batch_size, num_patches, 3 * patch_size ** 2)。
class Decoder(nn.Module):
def __init__(lf, patch_size=16, embed_dim=768, norm_layer=nn.LayerNorm, num_class=768, **block_kwargs):
super().__init__()
lf.num_class = num_class
asrt num_class == 3 * patch_size ** 2
lf.num_features = lf.embed_dim = embed_dim
lf.patch_size = patch_size
lf.blocks = nn.ModuleList([Block(**block_kwargs) for i in range(depth)]) # various arguments are not shown here for brevity purpos
< = norm_layer(embed_dim)
lf.head = nn.Linear(embed_dim, num_class)
揉揉捏捏
线面垂直def forward(lf, x, return_token_num):
for blk in lf.blocks:
x = blk(x)
if return_token_num > 0:
x = lf.(x[:, -return_token_num:])) # only return the mask tokens predict pixels
el:
x = lf.(x))
return x
把所有东西放在⼀起——MAE架构
MAE ⽤于对掩码图像进⾏预训练。⾸先,屏蔽的输⼊被发送到编码器。然后,它们被传递到前馈层以更改嵌⼊维度以匹配解码器。 在传递给解码器之前,被掩码的Patch被输⼊进去。 位置编码再次应⽤于完整的图像块集,包括可见的和被掩码遮盖的。
在论⽂中,作者对包含所有Patch的列表进⾏了打乱,以便正确插⼊Patch的掩码。 这部分在本篇⽂章中没有完成,因为在 PyTorch 上实现并不简单。所以这⾥使⽤的是位置编码在被添加到Patch之前被相应地打乱的做法。
class MAE(nn.Module):
def __init__(lf, ...): # various arguments are not shown here for brevity purpos
super().__init__()
lf.decoder = Decoder(patch_size, embed_dim, norm_layer, num_class, **block_kwargs)
lf.mask_token = nn.s(1, 1, decoder_embed_dim))
lf.pos_embed = get_sinusoid_encoding_der.patch_embed.num_patches, decoder_embed_dim)
def forward(lf, x, mask):
x_vis = lf.encoder(x, mask)
x_vis = lf.encoder_to_decoder(x_vis)
B, N, C = x_vis.shape
expand_pos_embed = lf.pand(B, -1, -1).type_as(x).to(x.device).clone().detach()
pos_emd_vis = expand_pos_embed[~mask].reshape(B, -1, C)
雨天说说pos_emd_mask = expand_pos_embed[mask].reshape(B, -1, C)
x_full = torch.cat([x_vis + pos_emd_vis, lf.mask_token + pos_emd_mask], dim=1)
x = lf.decoder(x_full, pos_emd_mask.shape[1]) # [B, N_mask, 3 * 16 * 16]
return x
训练过程
对于⾃监督预训练,论⽂发现简单的逐像素平均绝对损失作为⽬标函数效果很好。 并且他们使⽤的数据集是 ImageNet-1K 训练集。
在下游的微调阶段,解码器被移除,编码器在相同的数据集上进⾏训练。 数据与预训练略有不同,因为编码器现在使⽤完整的图像块集(没有屏蔽)。 因此,现在的Patch数量与预训练阶段不同。
如果您你知道⽤于预训练的模型是否仍然可以⽤于微调,答案是肯定的。 编码器主要由注意⼒模块、norm层和前馈层组成。 要检查Patch 数量(索引 1)的变化是否影响前向传递,我们需要查看每⼀层的参数张量的形状。
norm层中的参数的形状为(batch, 1, encoder_embed_dim)。 它可以在前向传播期间沿着补丁维度(索引 1)进⾏⼴播,因此它不依赖于补丁维度的⼤⼩。
前馈层有⼀个形状为(in_channels, out_channels)的权重矩阵和⼀个形状为(out_channels,)的偏置矩阵,两者都不依赖于patch的数量。
注意⼒模块本质上执⾏⼀系列线性投影。 因此,出于同样的原因,patch的数量也不会影响参数张量的形状。
由于并⾏处理允许将数据分批输⼊,所以批处理中的Patch数量是需要保持⼀致的。
结果
让我们看看原始论⽂中报道的预训练阶段的重建图像。看起来MAE在重建图像⽅⾯做得很好,即使80%的像素被遮蔽了。
ImageNet验证图像的⽰例结果。从左到右:遮蔽图像、重建图像、真实图像。掩蔽率为80%。
MAE 在微调的下游任务上也表现良好,例如 ImageNet-1K 数据集上的图像分类。 与监督⽅式相⽐,在使⽤ MAE 预训练进⾏训练时⽐使⽤的基线 ViT-Large 实际上表现更好。
论⽂中还包括对下游任务和各种消融研究的迁移学习实验的基准结果。有兴趣的可以再看看原论⽂。
讨论
如果您熟悉 BERT,您可能会注意到 BERT 和 MAE 的⽅法之间的相似之处。在 BERT 的预训练中,我们遮蔽了⼀部分⽂本,模型的任务是预测它们。此外,由于我们现在使⽤的是基于 Transformer 的架构,因此说这种⽅法在视觉上与 BERT 等效也不是不合适的。
但是论⽂中说这种⽅法早于 BERT。例如,过去对图像⾃监督的尝试使⽤堆叠去噪⾃编码器和图像修复作为pretext task。 MAE 本⾝也使⽤⾃动编码器作为模型和类似于图像修复的pretext task。
如果是这样的话,是什么让 MAE ⼯作⽐以前模型好呢?我认为关键在于 ViT 架构。在他们的论⽂中,作者提到卷积神经⽹络在将掩码标记和位置嵌⼊等“指标”集成到其中时存在问题,⽽ ViT 解决了这种架构差距。如果是这样,那么我们将看到在⾃然语⾔处理中开发的另⼀个想法在计算机视觉中成功实现。之前是attention机制,然后Transformer的概念以Vision Transformers的形式借⽤到计算机视觉中,现在是整个BERT预训练过程。
结论
我对未来⾃监督的视觉必须提供的东西感到兴奋。鉴于 BERT 在⾃然语⾔处理⽅⾯的成功,像 MAE 这样的掩码建模⽅法将有益于计算机视觉。图像数据很容易获得,但标记它们可能很耗时。通过这种⽅法,⼈们可以通过管理⽐ ImageNet ⼤得多的数据集来扩展预训练过程,⽽⽆需担⼼标记。潜⼒是⽆限的。我们是否会见证计算机视觉的另⼀次复兴,只有时间才能证明。
引⽤
1. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pretraining of deep bidirectional
transformers for language understanding. In NAACL, 2019.
2. Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. Masked autoencoders are scalable
如何改掉坏习惯vision learners. arXiv:2111.06377, 2021.
3. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weisnborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021.
作者:Stephen Lau