欢迎光临散文网 会员登陆 & 注册

贪心NLP Transformer研修

2022-09-08 23:26 作者:rei源义经  | 我要投稿

Transformer 是什么? 

Transformer 和 LSTM 的最大区别(已报名贪心Transformer底部评),就是 LSTM 的训练是迭代的、串行的,必须要等当前字处理完,才可以处理下一个字。而 Transformer 的训练时并行的,即所有是同时训练的,这样就大大增加了计算效率。

Transformer 使用了位置嵌入 (Positional Encoding) 来理解语言的顺序,使用自注意力机制(Self Attention Mechanism)全连接层进行计算。

Transformer 模型主要分为两大部分,分别是 Encoder 和 Decoder

  • Encoder编码器负责把输入(语言序列)隐射成隐藏层(下图中第 2 步用九宫格代表的部分),即把自然语言序列映射为隐藏层的数学表达的过程

  • Decoder解码器再把隐藏层映射为自然语言序列。

例如下图机器翻译的例子(Decoder 输出的时候,是通过 N 层 Decoder Layer 才输出一个 token,并不是通过一层 Decoder Layer 就输出一个 token)



贪心NLP Transformer研修的评论 (共 条)

分享到微博请遵守国家法律