欢迎光临散文网会员登陆 & 注册

【沈向洋带你读论文】Swin Transformer 马尔奖论文（ICCV 20

2022-09-05 13:09 作者:小清舍 0人读过 | 我要投稿

NLP和CV能否统一

ViT将工作前进了一大步，直接拿NLP的transformer模型去解决图像分类的问题

方法还是过于简单粗暴，没有考虑视觉信号本身的特点

ViT只适合图像分类问题

全局计算，层次性，局部性，平移不变性

滑动窗口

不同的query采用同样的key集合去做transformer的计算

shifted window

实验设计，三个层次比较，涵盖基本上大多数视觉任务，最具代表

三个层次比较

系统级表现，激励大家使用

灵感源，大统一建模

基于图建模，验证哲学构建概念级关系

受速度激励

不重叠参考计算

接下来，视觉不变形，光照不敏感性，没有很好的解决。

focal loss

标签：

【沈向洋带你读论文】Swin Transformer 马尔奖论文（ICCV 20的评论 (共条)