Transformer从零详细解读(可能是你见过最通俗易懂的讲解)

1.从全局角度概括Transformer P1 - 01:26

1、2、3、4是encoder-decoder的共同部分
5贯穿于1234中
TRM在做什么

1.从全局角度概括Transformer P1 - 02:38

1.从全局角度概括Transformer P1 - 03:22
TRM内部结构

6个encoder结构相同,参数都在独立训练
1.从全局角度概括Transformer P1 - 05:30

剖析encoder细节

2.位置编码详细解读 P2 - 00:32

2.位置编码详细解读 P2 - 00:50
2.位置编码详细解读 P2 - 01:33

2.位置编码详细解读 P2 - 03:17
总梯度被近距离梯度主导,远距离梯度忽略不计
2.位置编码详细解读 P2 - 04:15
注意力机制增快了速度,但是忽略了顺序关系
2.位置编码详细解读 P2 - 05:07

相加得到最终的512维度作为TRM输入

2.位置编码详细解读 P2 - 06:46
为什么位置嵌入有用?

3.多头注意力机制详解 P3 - 00:17

人在看一张图的时候会有最关注的部位,颜色深表示很受关注,颜色浅表示不择么受关注
婴儿在干嘛这句话和图中那些区域最相思最关注
3.多头注意力机制详解 P3 - 01:24

3.多头注意力机制详解 P3 - 02:08

向量点乘:可以反应两个向量相似度
得到0.7,0.1,0.1,0.1之后和V矩阵相乘得到最后的attention value
3.多头注意力机制详解 P3 - 04:16

3.多头注意力机制详解 P3 - 05:49
step 1:矩阵相乘

step 2:计算attention值,为 value分配权重

这里只用了一套参数

多头注意力,多套参数


4.残差详解 P4 - 00:11

位置编码之后的x和attention计算后的z相加作为残差结果传入LN作为输出
4.残差详解 P4 - 02:00

缓解了梯度消失的出现
4.残差详解 P4 - 03:53
5.Batch Normal详解 P5 - 00:48
5.Batch Normal详解 P5 - 01:11

BN理解的重点:针对整个batch中的样本在同一维度特征在做处理

对1班同学身高做BN、体重做BN、成绩做BN
5.Batch Normal详解 P5 - 03:02

5.Batch Normal详解 P5 - 03:36


5.Batch Normal详解 P5 - 04:34

6.layer normal 详解 P6 - 00:35

6.layer normal 详解 P6 - 02:36

7.Decoder详解 P7 - 00:03

7.Decoder详解 P7 - 00:36
7.Decoder详解 P7 - 00:51

7.Decoder详解 P7 - 02:48

q来自本身,kv来自encoder
