欢迎光临散文网 会员登陆 & 注册

Bootstrapped Masked Autoencoders for Vision BERT Pretraining

2023-07-04 10:58 作者:Aster的小号  | 我要投稿

我们提出了基于自举蒙版自编码器(BootMAE)的新方法,用于视觉BERT预训练。BootMAE改进了原始的蒙版自编码器(MAE),具有两个核心设计:1)动量编码器,提供在线特征作为额外的BERT预测目标;2)目标感知解码器,试图减轻编码器在BERT预训练中记忆目标特定信息的压力。第一个设计的动机是观察到使用预训练的MAE提取特征作为蒙版标记的BERT预测目标可以实现更好的预训练性能。因此,我们在原始MAE编码器的同时添加了一个动量编码器,它通过使用自身表示作为BERT预测目标来引导预训练性能。在第二个设计中,我们直接将编码器中的目标特定信息(如未屏蔽补丁的像素值)传递给解码器,以减轻编码器记忆与预测目标相关的未屏蔽标记信息的压力。因此,编码器专注于语义建模,这是BERT预训练的目标,并且不需要浪费容量来记忆与预测目标相关的未屏蔽标记的信息。通过大量实验证明,我们的BootMAE在带有ViT-B骨干的ImageNet-1K上实现了84.2%的Top-1准确率,在相同的预训练时期下,优于MAE 0.8%。BootMAE还在ADE20K上的语义分割上实现了+1.0 mIoU的改进,并在COCO数据集上的目标检测和分割上实现了+1.3框AP,+1.4蒙版AP的改进。代码已发布在https://github.com/LightDXY/BootMAE。

自我监督表示学习[56、46、58、63、27、33、12]旨在从无标签数据中学习可转移的表示,是计算机视觉领域长期存在的问题。最近的进展表明,大规模的自我监督表示学习在具有挑战性的数据集上相比监督学习具有显著的改进。特别是,在视觉变换器的自我监督预训练中,蒙版图像建模(MIM)展示了在各种计算机视觉任务中引人注目的下游性能改进[24、4],吸引了越来越多的关注。

MIM旨在基于剩余可见补丁恢复被遮蔽区域。本质上,它通过内容预测通过对图像结构本身进行建模来学习可转移的表示。最近的研究工作蒙版自编码器(MAE)[30]引入了一种不对称的编码器-解码器结构,其中编码器仅对可见补丁进行操作,并且将编码器的输出表示与遮蔽的标记一起馈送到轻量级解码器中。将遮蔽标记转移到小型解码器中会大幅减少计算量。除了效率外,它还在只使用ImageNet-1K数据的方法中装备ViT-Huge骨干的情况下,实现了有竞争力的准确性(87.8%)。

在本文中,我们介绍了自举蒙版自编码器(BootMAE),这是一种用于自我监督表示学习的新框架,具有两个核心设计。首先,我们观察到,采用与MAE相同的结构设计,仅将MIM预测目标从像素更改为预训练的MAE编码器的表示将ViT-Base骨干的ImageNet分类准确度从83.4%提高到83.8%。受到这一观察的启发,我们提出使用动量编码器提供额外的预测目标。动量编码器是MAE编码器的时间编集,即权重由MAE编码器参数的指数移动平均(EMA)参数化[31、29]。对于每次迭代,我们将完整图像传递给动量编码器,为遮蔽的补丁提供地面真实表示,并将遮蔽图像传递给编码器,然后通过预测器为遮蔽的补丁生成预测。我们假设随着训练的进行,动量编码器通过自举提供的动态更深的语义相对于固定目标。我们保留MAE中的像素回归分支,作为区分图像的良好正则化。此外,它还为模型学习关于低级纹理的推理提供了指导。这种多重监督有助于学习在需要低级信息的更广泛任务中受益的表示。

其次,我们提出目标感知的解码器,试图减轻编码器记忆目标特定信息的压力,并鼓励编码器专注于有益于预训练的语义建模。回顾MIM的目标是在给定可见补丁的情况下恢复缺失区域。它基于这样一个事实,即自然图像,无论其多样性如何,都具有高度结构化(例如,建筑物的规律模式,汽车的结构形状)。MIM的目标是使模型理解这种结构,或称为语义,或等效地是预测目标空间(像素空间或特征空间)中不同补丁之间的关系。然后,预测是通过两个不可或缺的元素进行的:这种结构的知识以及可见补丁的目标特定信息(例如,像素值)。然而,先前的MIM方法将这两个元素耦合在一个单一模块中,浪费了模型在“记忆”可见补丁的目标特定信息方面的能力。相比之下,我们尝试将它们解耦,以便编码器利用其整个模型能力进行结构学习。具体而言,将目标特定信息明确而连续地提供给解码器,就像我们人类在进行视觉预测时总是看到可见补丁一样。

总之,我们的框架如图1所示,包含四个组件:(1)旨在捕获结构知识的编码器;(2)从编码器接收结构知识以及低级上下文信息进行像素级回归的回归器;(3)从编码器接收结构知识以及高级上下文信息进行潜在表示预测的预测器;(4)负责将各自所需的目标特定信息合并到回归器解码器和预测器解码器中的特征注入模块。

此外,我们发现遮蔽策略对于这两个不同的预测目标非常重要。它们偏爱不同的遮蔽策略。特别地,像素回归依赖于随机遮蔽,而块状遮蔽对于特征预测更好。原因可能是块状遮蔽倾向于去除大块区域,而这对于像素回归来说是一个困难的任务,因为像素回归在预测时严重依赖于来自局部邻居的提示。而对于特征预测,它不受精确像素对齐的约束,一个大的遮蔽补丁对于模型推理语义结构更有帮助。

在实验中,我们展示了我们的框架在包括图像分类、目标检测和语义分割在内的各种下游任务中的有效性。我们的方法比之前的监督方法和自我监督方法都表现出更优越的性能。我们还提供了广泛的消融研究,验证了我们模型中的两个核心设计的有效性。我们进一步在不同时期和不同模型中与MAE进行了全面的比较,并展示了我们的框架始终具有更好的性能。


Bootstrapped Masked Autoencoders for Vision BERT Pretraining的评论 (共 条)

分享到微博请遵守国家法律