Attention Is All You Need
Attention 在RNN上连接编码器和解码器 本文的transformer不使用RNN,只基于Attention机制来绘制输入和输出之间的依赖关系,因此并行度更好,性能更优。
在transformer中使用attention可以看到所有信息,并且参考了CNN优点做了一个多输出通道,涉及Muti-Head Attention 用来去模拟CNN多通道的效果。
自注意力机制成功应用于各种任务,包括阅读理解--摘要概括
端到端的内存网络,基于循环attention机制,不是序列对齐的循环,效果很好,是一种空间换时序的思路。
transformer是一个完全依靠self-attention机制来设计输入和输出关系,没有使用序列对齐的RNN或卷积的转导模型。
transformer遵循整体架构,编码器和解码器都使用了self-attention堆叠 point-wise和全连接层。