Swin Transformer从零详细解读

2023-03-17 15:21 作者:油条来了1 0人读过 | 我要投稿

1.SwinTRM整体架构解读 P1 - 01:22

对我来说，需要介绍给别人的是：

1.swin transformer的相对位置编码

2.窗口移动注意力SW-MSA介绍

3.PATCH merging 介绍

-- ---------------------------------------------------

1.SwinTRM整体架构解读 P1 - 02:32

1.在transformer中的encode不会改变输入与输出的维度大小。在这里，N=6，那么是先后通过6个编码器。通过第1层之后，不需要进行相对位置编码。

1.SwinTRM整体架构解读 P1 - 04:20

2.回顾vit模型，

可以分为5个步骤，分别是：

将图像切成为patch
将patch转换为embedding
将embedding和tokensembedding相加
送入到transformer模型中
完成分类任务

------------------------------------------------------

swin transformer做到了两点：

1.金字塔结构：参考FPN的例子，感受野是不断的变大的

2.注意力机制是放在一个窗口内部中

1.SwinTRM整体架构解读 P1 - 08:06

如何解决随着像素增加，复杂度o(pix^2)增加的问题：

1.局部注意力 2，改进attention公式

在swin中，1.采用的是金字塔形状，这可以让感受野不断变大 2.注意力机制放在窗口里

1.SwinTRM整体架构解读 P1 - 10:47

patch merging完成的是下采样的工作，将图片的分辨率从(224/4)*(224/4)变为（224/8）*（228/8），这一步骤的目的是为了增加感受野。

1.SwinTRM整体架构解读 P1 - 14:23

笔记总结：

1.1 patch merging：将图像的通道数变为原来2倍，把图像的宽度和高度缩小为原来2倍

实现的阶段：

第一个框框实现的是：

解决的是后续输入的问题，把图像按照patch进行划分，再展平。

第二框框：

1.相对位置编码

2.移动窗口注意力机制

3.patch融合是怎么实现的

------------------------------------------------------

swin的相对位置编码信息是放在了attention的矩阵中，不像transformer或是vit transformer是放在一开始。transformer与vit是绝对位置信息，而swin是相对位置信息

--------------------------------------

2.相对位置编码解析 P2 - 10:47

这里是绝对位置编码，如图中所示，当原点固定时，坐标位置也是固定住。

4个相对位置信息如何融入到attention矩阵中去，在swin-transformer中

（x,y）->(x+1,y+1) -> ((2m-1)*(x+1),y+1)

-> (2m-1)x+2m-1+y+1=(2m-1)x+2m+y

标签：

Swin Transformer从零详细解读

Swin Transformer从零详细解读的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

Swin Transformer从零详细解读

本文作者的其他文章

Swin Transformer从零详细解读的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

Swin Transformer从零详细解读的评论 (共条)