欢迎光临散文网会员登陆 & 注册

67 自注意力【动手学深度学习v2】

2023-09-08 17:12 作者:月芜SA 0人读过 | 我要投稿

自注意力原理：

设输入的数据为n个长为d的序列。自注意力池化层会把每个序列同时看作key、value、query。

实际上就是抽取输入数据内部关系特征

Self-attention与CNN、RNN对比

图中d为数据序列长度，k为卷积核大小，n为序列数量。

可以看出self-attention对运算能力的要求特别高，这也是为何如今所有基于self-attention的模型都需要很多GPU才能进行运算。

self-attention里的位置信息处理

知识补充：

位置编码里的位置在实际中指的是Xi的i。

标签：

67 自注意力【动手学深度学习v2】的评论 (共条)