【沈向洋带你读论文】Swin Transformer 马尔奖论文(ICCV 20

NLP和CV能否统一

ViT将工作前进了一大步,直接拿NLP的transformer模型去解决图像分类的问题

方法还是过于简单粗暴,没有考虑视觉信号本身的特点

ViT只适合图像分类问题

全局计算,层次性,局部性,平移不变性

滑动窗口

不同的query采用同样的key集合去做transformer的计算
shifted window

实验设计,三个层次比较,涵盖基本上大多数视觉任务,最具代表

三个层次比较
系统级表现,激励大家使用



灵感源,大统一建模


基于图建模,验证哲学构建概念级关系

受速度激励

不重叠参考计算
接下来,视觉不变形,光照不敏感性,没有很好的解决。
focal loss
