欢迎光临散文网 会员登陆 & 注册

Transformer从零详细解读(可能是你见过最通俗易懂的讲解)

2022-09-16 17:59 作者:不败阿豪  | 我要投稿


1.从全局角度概括Transformer P1 - 01:26


1、2、3、4是encoder-decoder的共同部分

5贯穿于1234中

TRM在做什么



1.从全局角度概括Transformer P1 - 02:38




1.从全局角度概括Transformer P1 - 03:22


TRM内部结构

6个encoder结构相同,参数都在独立训练


1.从全局角度概括Transformer P1 - 05:30



剖析encoder细节



2.位置编码详细解读 P2 - 00:32




2.位置编码详细解读 P2 - 00:50





2.位置编码详细解读 P2 - 01:33




2.位置编码详细解读 P2 - 03:17


总梯度被近距离梯度主导,远距离梯度忽略不计


2.位置编码详细解读 P2 - 04:15


注意力机制增快了速度,但是忽略了顺序关系


2.位置编码详细解读 P2 - 05:07


相加得到最终的512维度作为TRM输入



2.位置编码详细解读 P2 - 06:46


为什么位置嵌入有用?



3.多头注意力机制详解 P3 - 00:17


人在看一张图的时候会有最关注的部位,颜色深表示很受关注,颜色浅表示不择么受关注

婴儿在干嘛这句话和图中那些区域最相思最关注


3.多头注意力机制详解 P3 - 01:24




3.多头注意力机制详解 P3 - 02:08


向量点乘:可以反应两个向量相似度

得到0.7,0.1,0.1,0.1之后和V矩阵相乘得到最后的attention value


3.多头注意力机制详解 P3 - 04:16




3.多头注意力机制详解 P3 - 05:49


step 1:矩阵相乘

step 2:计算attention值,为 value分配权重

这里只用了一套参数

多头注意力,多套参数




4.残差详解 P4 - 00:11


位置编码之后的x和attention计算后的z相加作为残差结果传入LN作为输出


4.残差详解 P4 - 02:00


缓解了梯度消失的出现


4.残差详解 P4 - 03:53





5.Batch Normal详解 P5 - 00:48




5.Batch Normal详解 P5 - 01:11


BN理解的重点:针对整个batch中的样本在同一维度特征在做处理

对1班同学身高做BN、体重做BN、成绩做BN


5.Batch Normal详解 P5 - 03:02




5.Batch Normal详解 P5 - 03:36





5.Batch Normal详解 P5 - 04:34




6.layer normal 详解 P6 - 00:35




6.layer normal 详解 P6 - 02:36




7.Decoder详解 P7 - 00:03




7.Decoder详解 P7 - 00:36



7.Decoder详解 P7 - 00:51




7.Decoder详解 P7 - 02:48



q来自本身,kv来自encoder






Transformer从零详细解读(可能是你见过最通俗易懂的讲解)的评论 (共 条)

分享到微博请遵守国家法律