Peripheral Vision Transformer
人类视觉拥有一种特殊类型的视觉处理系统,称为周边视觉。通过根据视线中心的距离将整个视野划分为多个轮廓区域,周边视觉使我们能够在不同的区域感知各种视觉特征。在这项工作中,我们采用一种生物学启发式方法,探索在深度神经网络中建模周边视觉用于视觉识别。我们提出了将周边位置编码引入多头自注意力层的思想,让网络学习根据训练数据将视野划分为不同的周边区域。我们在大规模的ImageNet数据集上评估了所提出的网络,称为PerViT,并系统地研究了模型在机器感知方面的内部工作过程,展示了网络学习类似于人类视觉感知视觉数据的方式。在不同模型规模下,在图像分类任务中的最先进性能表明了所提出方法的效果。

过去十年来,由于其在模拟图像的空间配置方面的优越性,卷积一直是神经网络中用于视觉识别的主要特征转换方法 [17, 25, 26]。尽管卷积在学习视觉模式方面的有效性表现出色,但是卷积核具有局部和静态的特性限制了其在灵活处理中的最大表示能力,例如全局感受野下的动态转换。最初设计用于自然语言处理(NLP)的自注意力机制[50]为这个问题提供了新的解决方向;凭借自适应输入处理和捕捉长程交互的能力,自注意力成为计算机视觉的替代特征转换方法,并被广泛作为核心构建模块采用 [15]。然而,独立的自注意力模型,如ViT [15],要想达到与卷积模型相媲美的性能,需要更多的训练数据[43],因为它们缺少卷积拥有的某些理想特性,例如局部性。卷积和自注意力的这些固有的优点和缺点倾向于鼓励最近的研究将两者结合起来,以便在两者之间找到最佳的优势,但至于哪种方法最适合有效的视觉处理仍存在争议 [7, 8, 9, 11, 27, 29, 32, 33, 37, 38, 47, 49, 52, 55, 57, 59, 64]。
与机器视觉中主导性的视觉特征转换方法不同,人类视觉拥有一种特殊类型的视觉处理系统,称为周边视觉 [28];它将整个视野根据与注视中心的距离划分为多个轮廓区域,其中每个区域都代表不同的视觉属性。如图1所示,我们在视线中心附近(即中央和旁中央区域)进行高分辨率处理,用于识别高度详细的视觉元素,例如几何形状和低级细节。对于距离注视点更远的区域(即中部和远周边区域),分辨率会降低,用于识别抽象的视觉特征,例如动态特征和高级上下文。这种系统化的策略使我们能够在视野的一小部分(1%)内有效地感知重要细节,同时最小化背景干扰的非必要处理(99%),从而为人类大脑的高效视觉处理提供支持。
根据最近对视觉转换器的工作方式的研究 [11, 15, 37, 46, 57],它们的行为实际上与周边视觉如何运作密切相关。早期层的注意力图被学习用于在中央区域捕捉细粒度的几何细节,而后期层的注意力图则执行全局关注,用于从整个视野中识别粗粒度的语义和上下文,覆盖周边区域。这些发现揭示了模仿生物设计可能有助于模拟有效的机器视觉,也支持最近的方法在卷积和自注意力的独立视觉处理之外,尝试融合两种不同的感知策略:细粒度/局部和粗粒度/全局,就像图1所示的人类视觉一样。
在这项工作中,我们采用一种生物学启发的方法,提出将周边归纳偏差注入深度神经网络用于图像识别。我们提出了将周边注意力机制融入多头自注意力机制 [50]的思想,让网络在给定训练数据的情况下学会将视野划分为多样的周边区域,其中每个区域捕捉不同的视觉特征。我们通过实验证明,所提出的网络模拟了有效的视觉周边,用于可靠的视觉识别。我们的主要贡献可以总结如下:
• 本工作通过将周边归纳偏差注入自注意力层,探索缩小人类视觉与机器视觉之间的差距,并提出了一种名为多头周边注意力(MPA)的新型特征转换形式。
• 基于MPA,我们引入了周边视觉转换器(PerViT),并通过定性和定量分析其学习到的注意力机制,对PerViT的内部工作进行系统研究。结果表明,网络学习类似于人类视觉,无需任何特殊监督。
• 在不同的模型规模上,在图像分类任务中的最先进表现验证了所提出方法的有效性。
