强烈推荐！台大李宏毅自注意力机制和Transformer详解！

2023-02-26 11:59 作者:Stereo-seq 0人读过 | 我要投稿

encoder和decoder （seq2seq）的应用，

电视剧的音频与字幕，通过transformer 训练一个语音识别模型

反过来

语音合成：输入文字，输出语音

通过大量对话文本，训练聊天机器人

Seq2seq 从最早的RNN模型，到现在的transformer模型

参差网络

残差网络（避免梯度消失w3(w2(w1x+b1)+b2)+b3，如果 w1，w2，w3 特别小，0.000000……1，x 就没了，【w3(w2(w1x+b1)+b2)+b3+x】）
x1作为残差结构的直连向量，直接和 z1 相加，之后进行 Layer Norm 操作，得到浅粉色向量 z1，z1 经过前馈神经网络（Feed Forward）层，经过残差结构与自身z1相加，之后经过 LN 层，得到一个输出向量 r1；
Add & Norm 就是 Residual残差网络和标准化
残差结构的作用：避免出现梯度消失的情况
Layer Norm 的作用：为了保证数据特征分布的稳定性，并且可以加速模型的收敛

标签：

强烈推荐！台大李宏毅自注意力机制和Transformer详解！的评论 (共条)