强烈推荐!台大李宏毅自注意力机制和Transformer详解!
2023-02-26 11:59 作者:Stereo-seq | 我要投稿


encoder和decoder (seq2seq)的应用,

电视剧的 音频与字幕,通过transformer 训练一个语音识别模型
反过来
语音合成 : 输入文字,输出语音

通过大量对话文本,训练聊天机器人



Seq2seq 从最早的RNN模型,到现在的transformer模型


参差网络
- 残差网络(避免梯度消失w3(w2(w1x+b1)+b2)+b3,如果 w1,w2,w3 特别小,0.000000……1,x 就没了,【w3(w2(w1x+b1)+b2)+b3+x】)
- x1作为残差结构的直连向量,直接和 z1 相加,之后进行 Layer Norm 操作,得到浅粉色向量 z1,z1 经过前馈神经网络(Feed Forward)层,经过残差结构与自身z1相加,之后经过 LN 层,得到一个输出向量 r1;
- Add & Norm 就是 Residual残差网络和标准化
- 残差结构的作用:避免出现梯度消失的情况
- Layer Norm 的作用:为了保证数据特征分布的稳定性,并且可以加速模型的收敛
