欢迎光临散文网会员登陆 & 注册

【Attention 注意力机制】激情告白transformer、Bert、GN

2023-02-09 22:14 作者:Siyuejiang 0人读过 | 我要投稿

神经网络训练是为了得到最好的权重矩阵

打破只能用encoder单一向量的限制，每一时刻模型都能动态看到全局信息

随着硬件发展，RNN没法并行运算，

encoder编码阶段计算每个单词之间的关联，加权表示得到新的表示

惹办公室看到这段有点尴尬

decoder要看encoder+之前的输出

参数更少、速度更快、效果更好

Q：相较于RNN的遍历，attention其实需要每个Q之间实时关联，某种程度是加大运算量的？

标签：

【Attention 注意力机制】激情告白transformer、Bert、GN的评论 (共条)