欢迎光临散文网 会员登陆 & 注册

BERT 论文逐段精读【论文精读】

2023-01-20 22:45 作者:梦到死锁的银行家  | 我要投稿
  • 摘要

BETR:Bidirectional Encoder Representations from Transformers(transformer模型的双向编码器表示)

BERT和ELMo的对比:ELMo用的是基于RNN的架构,BERT用的是transformer,所以ELMo针对一些下游任务,需要对架构做一些调整,而BERT就不需要做很大的调整

BERT和GPT的对比,GPT是用左边的信息预测未来的信息,是单向的;而BERT是双向的,也就是利用上下文的信息

  • 引言

使用预训练模型做特征表示的两种策略:feature-based和fine-tuning。

  1. 基于特征的方法的代表ELMo,对每一个下游任务构造一个和该任务相关的神经网络(用的是RNN架构)
  2. 基于微调的方法的代表是GPT,把预训练好的模型放在下游的任务时不需要改变太多,只需要改一点(也就是模型预训练好的参数会在下游任务的数据上进行微调即可)
  3. 总结:这两种方法都是使用相同的目标函数,都是使用一个单向的语言模型

引出作者的想法

以上的方法在做预训练的表征的时候会有局限性,因为标准的语言模型是单向的,所以存在一定的局限性。比如GPT是从左到右的架构,但是比如分析句子情感的任务,从左到右和从右到左都是合法的;而两个方向的信息应该都有用,所以针对此类任务,应该使用两个方向的信息,效果会更好。

作者的做法

使用“完形填空”方式(masked lanuage model, MLM)来预训练以减轻单向性造成的约束。提出的MLM方式就是随机盖住一些token,然后目标函数是预测哪些被盖住的token。

(打算先看完BERT再去看ViLT)

BERT 论文逐段精读【论文精读】的评论 (共 条)

分享到微博请遵守国家法律