【Attention 注意力机制】激情告白transformer、Bert、GN
2023-02-09 22:14 作者:Siyuejiang | 我要投稿





神经网络训练是为了得到最好的权重矩阵
打破只能用encoder单一向量的限制,每一时刻模型都能动态看到全局信息
随着硬件发展,RNN没法并行运算,
encoder编码阶段计算每个单词之间的关联,加权表示得到新的表示

惹 办公室看到这段有点尴尬


decoder要看encoder+之前的输出



参数更少、速度更快、效果更好

Q:相较于RNN的遍历,attention其实需要每个Q之间实时关联,某种程度是加大运算量的?