欢迎光临散文网 会员登陆 & 注册

【沈向洋带你读论文】Swin Transformer 马尔奖论文(ICCV 20

2022-09-05 13:09 作者:小清舍  | 我要投稿

NLP和CV能否统一

ViT将工作前进了一大步,直接拿NLP的transformer模型去解决图像分类的问题

方法还是过于简单粗暴,没有考虑视觉信号本身的特点

ViT只适合图像分类问题


全局计算,层次性,局部性,平移不变性

滑动窗口

不同的query采用同样的key集合去做transformer的计算

shifted window

实验设计,三个层次比较,涵盖基本上大多数视觉任务,最具代表

三个层次比较

系统级表现,激励大家使用



灵感源,大统一建模


基于图建模,验证哲学构建概念级关系

受速度激励

不重叠参考计算


接下来,视觉不变形,光照不敏感性,没有很好的解决。

focal loss


【沈向洋带你读论文】Swin Transformer 马尔奖论文(ICCV 20的评论 (共 条)

分享到微博请遵守国家法律