一文掌握ViT最新研究进展!(附论文+代码)
相较于CNN(卷积神经网络),视觉transformer(ViT)具有更出色的建模能力,在imagenet等基准上也取得了更优秀的性能,这可能也是近年来ViT越发热门的原因。
而且最近ViT的新进展真的不少,对于想发论文的同学来说,正是个好时机!
所以,我挑选了7篇vit最新高分论文和6篇vit经典必读论文来和大家分享,帮助大家迅速了解VIT最新研究动态,掌握vit的历史发展方向,为发论文提供新的思路。
论文我已经下载好了,部分代码也一并打包在内。
扫码添加小享,回复“vit”
免费领取全部论文+代码


7篇ViT最新高分论文
01
CF-ViT:一种通用的粗糙到精细的Vision Transformer方法(AAAI 2023)

论文贡献:作者提出了一种粗细粒度视觉Transformer(CF-ViT)来减轻计算负担而保持性能。通过粗细粒度的patch分割和多阶段推理,CF-ViT实现了视觉Transformer的轻量化,在不影响Top-1 准确率的情况下,CF-ViT在ImageNet上将LV-ViT-S的FLOPs降低53%, GPU上实测推理速度也加快了2倍,这为其在更大规模数据集和模型上应用提供了可能。
02
将Vision Transformers扩展到220亿参数

论文贡献:作者提出了一种能够高效且稳定训练大规模Vision Transformers(ViT)模型的方法,异步并行线性操作,成功将ViT的参数量提升到220亿。
03
FQ-ViT:Vision Transformer的训练后量化方法

论文贡献:作者提出了Power-of-Two Factor(PTF),一种简单而有效的后训练方法,可以在只有一个分层量化尺度的情况下对LayerNorm输入实现精确量化,减少全量化视觉Transformer的性能下降和推理复杂性。另外,作者也提出了Log-Int-Softmax(LIS)来维持注意力图中的极端非均匀分布,并通过使用4位量化和BitShift运算符简化推理。
04
从分析合成出发的自上而下的视觉注意机制

论文贡献:作者提出了一个拥有top-down attention能力的AbSViT,这是一种通过自上而下的调制调整ViT模型的变分近似AbS,可以实现可控的自上而下注意力,可以用作一般的骨干,改进分类、语义分割和模型鲁棒性的性能。AbSViT不仅在视觉语言理解等任务中表现出色,也是一般的强大工具。
05
保留视觉骨干网络的效果但去除令牌混合器(CVPR 2023)

论文贡献:作者基于重参数机制提出了RepIdentityFormer方案以研究无Token Mixer的架构体系。然后作者探索改进的学习范式来突破简单令牌混合器免费骨干的限制,并总结了5个经验实践指南。该工作可以作为网络设计优化驱动型高效率的探索起点,为后续优化驱动的高效网络设计提供了新的思路。
06
对自监督轻量级视觉变压器的深入研究(ICML 2023)

论文贡献:对于轻量级 ViT来说,当下游任务的数据比较充足时,基于 Masked-Image-Modeling(MIM)的自监督预训练方法表现最好,当下游任务的数据规模比较小时,基于 MAE 的预训练轻量级 ViT的迁移效果就很差。基于上述分析,作者开发了预训练期间的蒸馏策略,进一步提高了基于MAE的预训练的下游性能。
07
Efficientvit:具有级联注意力的高效记忆视觉转换器(CVPR 2023)

论文贡献:作者从三个维度分析了ViT的速度瓶颈,包括多头自注意力(MHSA)导致的大量访存时间,注意力头之间的计算冗余,以及低效的模型参数分配,进而提出了一个高效ViT模型EfficientViT。
---
这6篇ViT经典必读论文,其创新点以及突破点都极大地推动了vit领域的发展,非常有学术价值,建议想发论文的同学仔细研读。
扫码添加小享,回复“vit”
免费领取全部论文+代码


6篇ViT经典必读论文
01
Attention is All You Need(NeurIPS 2017)

论文贡献:作者提出一种网络架构Transformer,引入了自注意力机制,目前Transformer已成为机器翻译和其他序列学习任务的主流框架之一。
02
一张图片值得16x16个词:用于大规模图像识别的Transformers(ICLR 2020)

论文贡献:作者提出一个直接对图像块序列应用Transformer的方法Vision Transformer(ViT),并证明当用于大规模预训练和多个下游任务时,ViT可以获得与最先进的卷积网络相当的结果,但训练成本更低。这为纯Transformer在视觉领域的应用提供了一个成功范例。
03
Swin Transformer:使用移动窗口的层次视觉变压器 (ICCV 2021)

论文贡献:作者提出一种新的视觉Transformer,称为Swin Transformer,用于广泛的计算机视觉任务。作者指出将Transformer从NLP转用于CV面临的挑战,并提出一种分层设计和移位窗口方法来解决这些挑战。实验结果显示Swin Transformer在多个视觉任务上表现优异,并且性能超过之前最先进的方法一个很大的幅度。
04
使用Transformers的端到端目标检测(ECCV 2020)

论文贡献:作者提出一种新的目标检测方法-DETR,将目标检测视为直接集合预测问题。DETR采用一种基于集合的全局损失和Transformer encoder-decoder架构。实验结果显示,DETR在COCO数据集上与优化的Faster RCNN基准相当,并且可以扩展到全景分割。DETR简单易用,不需要复杂的库。
05
令牌合并:您的ViT但更快(ICLR 2023)

论文贡献:作者提出一种简单的方法Token Merging (ToMe),可以在不需要重新训练的情况下提高Vision Transformer(ViT)模型的吞吐量。ToMe使用轻量级的匹配算法合并相似的令牌。实验结果显示,ToMe可以将ViT在图像、视频和音频上的吞吐量提高一倍以上,精度损失很小。
06
Transformer的快速训练后剪枝框架(NeurlPS 2022)

论文贡献:作者提出了一种快速的训练后剪枝框架,用于不需要任何重新训练的Transformer。另外,作者还提出三种新技术:mask搜索算法、mask重排和mask调优,以在不重新训练的情况下保持高精度。
在GLUE和SQuAD基准测试中,该方法的有效性得到了证实,相比现有重新训练的剪枝方法速度快两个数量级。这为Transformer模型的部署和使用提供了更简单高效的剪枝方法。
扫码添加小享,回复“vit”
免费领取全部论文+代码

