Transformer涨点神器!通过Group-Mix 注意力改进视觉Transformer
替换传统自注意力!本文提出Group-Mix 注意力,并提出一个强大的主干:GroupMixFormer,在图像分类、目标检测和语义分割上实现了最先进的性能,并且参数比现有模型更少,代码即将开源!
Transformer(ViT) 已被证明可以通过使用多头自注意力 (MHSA) 建模远程依赖性来增强视觉识别,这通常被表述为查询-键-值计算。 然而,从查询和密钥生成的注意力图仅捕获单一粒度的token到token的相关性。 在本文中,我们认为自注意力应该有一个更全面的机制来捕获标记和组(即多个相邻标记)之间的相关性,以获得更高的表示能力。因此,本文提出 Group-Mix Attention (GMA) 作为传统 self-attention 的高级替代品,它可以同时捕获不同组大小的 token 到 token、token 到组以及组到组的相关性。 为此,GMA将Query、Key和Value统一分割成段,并进行不同的组聚合以生成组代理。 注意力图是基于令牌和组代理的混合计算的,并用于重新组合值中的token和组。 基于 GMA,本文引入了一个强大的主干,即 GroupMixFormer,它在图像分类、对象检测和语义分割方面实现了最先进的性能,并且参数比现有模型更少。 例如,GroupMixFormer-L(具有 70.3M 参数和 384^2 输入)在没有外部数据的 ImageNet-1K 上获得 86.2% Top-1 准确率,而 GroupMixFormer-B(具有 45.8M 参数)在 ADE20K 上获得 51.2% mIoU。








论文地址:https://openreview.net/forum?id=QSrtzF0qzn
更多论文创新点加微信群:Lh1141755859
公众号:CV算法小屋