什么是transformer?【知多少】

什么是Transformer?

RNN只能受限于
N to N
1 to N
N to 1
我们找到了sequence to sequence
一个拥有编码器Encoder和解码器Decoder的模型
Encoder和Decoder依然是RNN网络
Encoder提取原始语言的意义,之后Decoder转换为相应的语言
依靠意义这一中介
seq2seq成功解决了两端单词数不对等的状况
问题:
意义单元能够存储的信息是有限的,如果一个句子太长,翻译精度就会随着下降
ATTENTION
注意力机制
人们在找到每个单词上

提取最需要的信息
成功摆脱输入序列的长度限制
但是现在这样看的速度实在是太慢了
Self-Attention
先提取每个单词的意义,再依据生成顺序选取所需要的信息
