欢迎光临散文网 会员登陆 & 注册

12.1 Swin-Transformer网络结构详解

2022-10-13 22:51 作者:不败阿豪  | 我要投稿

2021 best paper


02:11


不同任务排名

目标检测:coco数据集


03:22


比较难理解的在4、5部分


04:10


swin transformer vs VIT

1、swin transformer构建的feature map具有层次性,所以对目标检测、分割等任务更有优势

VIT直接下采样16倍,后面一直保持下采样倍率不变,无法像swin transformer一样构建具有层次性的特征层

2、swin transformer的feature map当中,用的是一个个窗口的形式将feature map分隔开,窗口之间没有重叠

vit当中是一个整体,没有进行分割

这一个个window就是待会讲的windows multi-head self-attention,引入这个结构就可以在每个window内部计算self-attention,window之间不进行信息传递

好处:大大降低运算量,尤其是在浅层网络(下采样倍率低),相对于在整个特征图上进行multi-head self-attention可以减少计算量

表格:对比


08:04


网络框架




09:32


patch partition是什么


10:27


linear embedding干什么

将48变成C


11:36


每个stage重复堆叠swin transformer block n次,n是偶数



13:47


patch merging如何操作



15:06


W-MSA模块



16:57


MSA vs W-MSA



18:33


两个公式怎么来的




24:49


SW-MSA



26:01


示例:黑色是特征图

窗口移动前

移动后



28:00



5和3本来是分开的两个区域,我们把他们强行划分在一个window里,对它们进行MSA是有问题的



29:54


如何单独计算5的MSA和3的MSA

和原来在整个窗口进行自注意计算量一样,只是多了一个mask操作


33:15


注意还原会原来位置


33:52


滑动窗口举例



36:52


相对位置偏移(通过表格展示其重要性)



39:22


什么是相对位置偏移?



42:15


如何将二元坐标转一元坐标,





44:03






45:30


为什么是(2M-1)*(2M-1)




47:08




12.1 Swin-Transformer网络结构详解的评论 (共 条)

分享到微博请遵守国家法律