欢迎光临散文网 会员登陆 & 注册

强烈推荐!台大李宏毅自注意力机制和Transformer详解!

2023-02-26 11:59 作者:Stereo-seq  | 我要投稿

encoder和decoder (seq2seq)的应用,

电视剧的 音频与字幕,通过transformer 训练一个语音识别模型

反过来

语音合成 : 输入文字,输出语音


通过大量对话文本,训练聊天机器人




Seq2seq 从最早的RNN模型,到现在的transformer模型



参差网络

  1. 残差网络(避免梯度消失w3(w2(w1x+b1)+b2)+b3,如果 w1,w2,w3 特别小,0.000000……1,x 就没了,【w3(w2(w1x+b1)+b2)+b3+x】)
  2. x1作为残差结构的直连向量,直接和 z1 相加,之后进行 Layer Norm 操作,得到浅粉色向量 z1,z1 经过前馈神经网络(Feed Forward)层,经过残差结构与自身z1相加,之后经过 LN 层,得到一个输出向量 r1;
  3. Add & Norm 就是 Residual残差网络和标准化
  4. 残差结构的作用:避免出现梯度消失的情况
  5. Layer Norm 的作用:为了保证数据特征分布的稳定性,并且可以加速模型的收敛




强烈推荐!台大李宏毅自注意力机制和Transformer详解!的评论 (共 条)

分享到微博请遵守国家法律