欢迎光临散文网会员登陆 & 注册

Transformer从零详细解读(可能是你见过最通俗易懂的讲解)

2022-09-16 17:59 作者:不败阿豪 0人读过 | 我要投稿

1.从全局角度概括Transformer P1 - 01:26

1、2、3、4是encoder-decoder的共同部分

5贯穿于1234中

TRM在做什么

1.从全局角度概括Transformer P1 - 02:38

1.从全局角度概括Transformer P1 - 03:22

TRM内部结构

6个encoder结构相同，参数都在独立训练

1.从全局角度概括Transformer P1 - 05:30

剖析encoder细节

2.位置编码详细解读 P2 - 00:32

2.位置编码详细解读 P2 - 00:50

2.位置编码详细解读 P2 - 01:33

2.位置编码详细解读 P2 - 03:17

总梯度被近距离梯度主导，远距离梯度忽略不计

2.位置编码详细解读 P2 - 04:15

注意力机制增快了速度，但是忽略了顺序关系

2.位置编码详细解读 P2 - 05:07

相加得到最终的512维度作为TRM输入

2.位置编码详细解读 P2 - 06:46

为什么位置嵌入有用？

3.多头注意力机制详解 P3 - 00:17

人在看一张图的时候会有最关注的部位，颜色深表示很受关注，颜色浅表示不择么受关注

婴儿在干嘛这句话和图中那些区域最相思最关注

3.多头注意力机制详解 P3 - 01:24

3.多头注意力机制详解 P3 - 02:08

向量点乘：可以反应两个向量相似度

得到0.7,0.1,0.1,0.1之后和V矩阵相乘得到最后的attention value

3.多头注意力机制详解 P3 - 04:16

3.多头注意力机制详解 P3 - 05:49

step 1：矩阵相乘

step 2：计算attention值，为 value分配权重

这里只用了一套参数

多头注意力，多套参数

4.残差详解 P4 - 00:11

位置编码之后的x和attention计算后的z相加作为残差结果传入LN作为输出

4.残差详解 P4 - 02:00

缓解了梯度消失的出现

4.残差详解 P4 - 03:53

5.Batch Normal详解 P5 - 00:48

5.Batch Normal详解 P5 - 01:11

BN理解的重点：针对整个batch中的样本在同一维度特征在做处理

对1班同学身高做BN、体重做BN、成绩做BN

5.Batch Normal详解 P5 - 03:02

5.Batch Normal详解 P5 - 03:36

5.Batch Normal详解 P5 - 04:34

6.layer normal 详解 P6 - 00:35

6.layer normal 详解 P6 - 02:36

7.Decoder详解 P7 - 00:03

7.Decoder详解 P7 - 00:36

7.Decoder详解 P7 - 00:51

7.Decoder详解 P7 - 02:48

q来自本身，kv来自encoder

标签：

Transformer从零详细解读(可能是你见过最通俗易懂的讲解)的评论 (共条)