67 自注意力【动手学深度学习v2】

自注意力原理:
设输入的数据为n个长为d的序列。自注意力池化层会把每个序列同时看作key、value、query。
实际上就是抽取输入数据内部关系特征
Self-attention与CNN、RNN对比

图中d为数据序列长度,k为卷积核大小,n为序列数量。
可以看出self-attention对运算能力的要求特别高,这也是为何如今所有基于self-attention的模型都需要很多GPU才能进行运算。
self-attention里的位置信息处理



知识补充:
位置编码里的位置在实际中指的是Xi的i。