欢迎光临散文网 会员登陆 & 注册

Swin Transformer从零详细解读

2023-03-17 15:21 作者:油条来了1  | 我要投稿


1.SwinTRM整体架构解读 P1 - 01:22


对我来说,需要介绍给别人的是:

1.swin transformer的相对位置编码

2.窗口移动注意力SW-MSA介绍

3.PATCH merging 介绍

-- ---------------------------------------------------


1.SwinTRM整体架构解读 P1 - 02:32


1.在transformer中的encode不会改变输入与输出的维度大小。在这里,N=6,那么是先后通过6个编码器。通过第1层之后,不需要进行相对位置编码。


1.SwinTRM整体架构解读 P1 - 04:20


2.回顾vit模型,

可以分为5个步骤,分别是:

  1. 将图像切成为patch
  2. 将patch转换为embedding
  3. 将embedding和tokensembedding相加
  4. 送入到transformer模型中
  5. 完成分类任务

------------------------------------------------------

swin transformer做到了两点:

1.金字塔结构:参考FPN的例子,感受野是不断的变大的

2.注意力机制是放在一个窗口内部中



1.SwinTRM整体架构解读 P1 - 08:06


如何解决随着像素增加,复杂度o(pix^2)增加的问题:

1.局部注意力 2,改进attention公式

在swin中,1.采用的是金字塔形状,这可以让感受野不断变大 2.注意力机制放在窗口里


1.SwinTRM整体架构解读 P1 - 10:47


patch merging完成的是下采样的工作,将图片的分辨率从(224/4)*(224/4)变为(224/8)*(228/8),这一步骤的目的是为了增加感受野。


1.SwinTRM整体架构解读 P1 - 14:23



笔记总结:

1.1 patch merging: 将图像的通道数变为原来2倍,把图像的宽度和高度缩小为原来2倍

实现的阶段:

第一个框框实现的是:

解决的是后续输入的问题,把图像按照patch进行划分,再展平。

第二框框:

1.相对位置编码

2.移动窗口注意力机制

3.patch融合是怎么实现的

------------------------------------------------------

swin的相对位置编码信息是放在了attention的矩阵中,不像transformer或是vit transformer是放在一开始。transformer与vit是绝对位置信息,而swin是相对位置信息

--------------------------------------


2.相对位置编码解析 P2 - 10:47


这里是绝对位置编码,如图中所示,当原点固定时,坐标位置也是固定住。

4个相对位置信息如何融入到attention矩阵中去,在swin-transformer中



(x,y)->(x+1,y+1) -> ((2m-1)*(x+1),y+1)

-> (2m-1)x+2m-1+y+1=(2m-1)x+2m+y





Swin Transformer从零详细解读的评论 (共 条)

分享到微博请遵守国家法律