欢迎光临散文网 会员登陆 & 注册

【Attention 注意力机制】激情告白transformer、Bert、GN

2023-02-09 22:14 作者:Siyuejiang  | 我要投稿




神经网络训练是为了得到最好的权重矩阵

打破只能用encoder单一向量的限制,每一时刻模型都能动态看到全局信息

随着硬件发展,RNN没法并行运算,

encoder编码阶段计算每个单词之间的关联,加权表示得到新的表示

惹 办公室看到这段有点尴尬


decoder要看encoder+之前的输出



参数更少、速度更快、效果更好

Q:相较于RNN的遍历,attention其实需要每个Q之间实时关联,某种程度是加大运算量的?

【Attention 注意力机制】激情告白transformer、Bert、GN的评论 (共 条)

分享到微博请遵守国家法律