欢迎光临散文网会员登陆 & 注册

Swin Transformer从零详细解读

2022-10-18 17:40 作者:不败阿豪 0人读过 | 我要投稿

1.SwinTRM整体架构解读 P1 - 00:49

整个视频四部分

1.SwinTRM整体架构解读 P1 - 01:41

回顾TRM模型

TRM的encoder并不改变输入和输出的形状，无论vit还是swin都一样

1.SwinTRM整体架构解读 P1 - 02:56

左边是encoder细节结构，抽象为右边灰色的框框

1.SwinTRM整体架构解读 P1 - 03:46

回顾vit模型

1.SwinTRM整体架构解读 P1 - 05:28

swin相对于vit的创新

1.SwinTRM整体架构解读 P1 - 06:52

如何把图像变成一个个token

问题：复杂度太大

vit问题

1.SwinTRM整体架构解读 P1 - 08:53

swin vs vit

vit：把一张图片分为若干patch（共9个），每个patch作为一个token输入encoder

swin：把一张大图片分为一个个window（共9个），window里每一个像素点作为一个token输入encoder

1.SwinTRM整体架构解读 P1 - 10:34

swintrm整体架构图

看一篇论文最好方法：搞清楚每一个零部件输入和输出的数据的形状和变化

1.SwinTRM整体架构解读 P1 - 14:19

整体形状变化

1.SwinTRM整体架构解读 P1 - 16:04

源代码实现的时候和原架构图不同

2.相对位置编码解析 P2 - 00:37

patch partition

2.相对位置编码解析 P2 - 02:08

第二个红色框里的重点内容：

1、相对位置编码如何实现？

2、移动窗口注意力机制如何实现？

3、patch融合如何实现？

2.相对位置编码解析 P2 - 02:37

相对位置编码的实现

1、TRM中的位置编码：在输入部分+位置编码（正余弦函数，不可以学习）

2、vit模型中划分为一个个patch后没有使用正余弦函数，而是初始化一个个索引，根据索引得到参数

3、swinTRM

2.相对位置编码解析 P2 - 05:06

swinTRM相对位置信息加在哪里

B的形状是什么

2.相对位置编码解析 P2 - 06:43

一个例子

2.相对位置编码解析 P2 - 10:06

什么是绝对位置信息

什么是相对位置信息

2.相对位置编码解析 P2 - 11:40

网格的绝对位置和相对位置

1种绝对位置信息

4种相对位置信息

2.相对位置编码解析 P2 - 12:53

怎么把4种相对位置信息加入attention矩阵

2.相对位置编码解析 P2 - 18:04

2.相对位置编码解析 P2 - 19:42

position embedding

3.窗口移动注意力机制 P3 - 00:14

原始的窗口注意力机制

存在问题

移动窗口注意力

3.窗口移动注意力机制 P3 - 03:09

移动前

移动后

当窗口滑动到最右端出现同一窗口不相邻的情况，右下端出现4、5、7、8不相邻

3.窗口移动注意力机制 P3 - 07:40

mask符号

矩阵的信息：0元素代表同一窗口，非0元素代表本不相邻被框到一起

把非0元素置位-100或负无穷，得到mask矩阵

4.复杂度解析 P4 - 00:19

4.复杂度解析 P4 - 05:12

单头

多头

4.复杂度解析 P4 - 06:15

窗口注意力机制

4.复杂度解析 P4 - 06:44

patch merging降采样

标签：

Swin Transformer从零详细解读的评论 (共条)