欢迎光临散文网 会员登陆 & 注册

贪心学院 NLP Transformer联邦学习高阶研修班

2023-03-16 13:36 作者:year一人  | 我要投稿

Transformer 分为两个部分,encoder和 decoder。

编码器:编码器是由N=6个相同的层堆叠而成。每层有两个子层。第一层是一个multi-head self-attention机制,第二层是一个简单的、按位置排列的全连接前馈网络。两个子层都采用了一个residual(残差)连接,然后进行层的归一化。也就是说,每个子层的输出是LayerNorm(x + Sublayer(x)),其中Sublayer(x)是由子层本身的输出。
解码器:解码器也是由N=6个相同层的堆栈组成。除了每个编码器层的两个子层之外,解码器还插入了第三个子层,它对编码器堆栈的输出进行multi-head self-attention。与编码器类似,两个子层都采用了一个residual(残差)连接,然后进行层的归一化。为确保对位置i的预测只取决于小于i的位置的已知输出,修改了解码器堆栈中的multi-head self-attention层。


贪心学院 NLP Transformer联邦学习高阶研修班的评论 (共 条)

分享到微博请遵守国家法律