贪心NLP Transformer研修
Transformer 是什么?
Transformer 和 LSTM 的最大区别(已报名贪心Transformer底部评),就是 LSTM 的训练是迭代的、串行的,必须要等当前字处理完,才可以处理下一个字。而 Transformer 的训练时并行的,即所有字是同时训练的,这样就大大增加了计算效率。
Transformer 使用了位置嵌入 (Positional Encoding) 来理解语言的顺序,使用自注意力机制(Self Attention Mechanism)和全连接层进行计算。
Transformer 模型主要分为两大部分,分别是 Encoder 和 Decoder。
Encoder编码器负责把输入(语言序列)隐射成隐藏层(下图中第 2 步用九宫格代表的部分),即把自然语言序列映射为隐藏层的数学表达的过程。
Decoder解码器再把隐藏层映射为自然语言序列。
例如下图机器翻译的例子(Decoder 输出的时候,是通过 N 层 Decoder Layer 才输出一个 token,并不是通过一层 Decoder Layer 就输出一个 token)
