欢迎光临散文网 会员登陆 & 注册

67 自注意力【动手学深度学习v2】

2023-09-08 17:12 作者:月芜SA  | 我要投稿

自注意力原理:

设输入的数据为n个长为d的序列。自注意力池化层会把每个序列同时看作key、value、query。

实际上就是抽取输入数据内部关系特征

Self-attention与CNN、RNN对比

图中d为数据序列长度,k为卷积核大小,n为序列数量。

可以看出self-attention对运算能力的要求特别高,这也是为何如今所有基于self-attention的模型都需要很多GPU才能进行运算。

self-attention里的位置信息处理




知识补充:

位置编码里的位置在实际中指的是Xi的i。












67 自注意力【动手学深度学习v2】的评论 (共 条)

分享到微博请遵守国家法律