Attention
是一种复杂的简化方法,能够找出对当前输出最重要的部分
一个典型的ATTENTION包括3部分
Q K V
K和V成组出现
Q是query
KEY和Query通常是源语言,原始文本等已有的信息
计算Q和K的相关性
得出不同的K对输出的重要程度
再与对应的V相乘求和
Self-Attention 自注意力机制
只关注输入序列的关系
Multi-head Attention