BERT 论文逐段精读【论文精读】

- 摘要
BETR:Bidirectional Encoder Representations from Transformers(transformer模型的双向编码器表示)
BERT和ELMo的对比:ELMo用的是基于RNN的架构,BERT用的是transformer,所以ELMo针对一些下游任务,需要对架构做一些调整,而BERT就不需要做很大的调整
BERT和GPT的对比,GPT是用左边的信息预测未来的信息,是单向的;而BERT是双向的,也就是利用上下文的信息
- 引言
使用预训练模型做特征表示的两种策略:feature-based和fine-tuning。
- 基于特征的方法的代表ELMo,对每一个下游任务构造一个和该任务相关的神经网络(用的是RNN架构)
- 基于微调的方法的代表是GPT,把预训练好的模型放在下游的任务时不需要改变太多,只需要改一点(也就是模型预训练好的参数会在下游任务的数据上进行微调即可)
- 总结:这两种方法都是使用相同的目标函数,都是使用一个单向的语言模型
引出作者的想法
以上的方法在做预训练的表征的时候会有局限性,因为标准的语言模型是单向的,所以存在一定的局限性。比如GPT是从左到右的架构,但是比如分析句子情感的任务,从左到右和从右到左都是合法的;而两个方向的信息应该都有用,所以针对此类任务,应该使用两个方向的信息,效果会更好。
作者的做法
使用“完形填空”方式(masked lanuage model, MLM)来预训练以减轻单向性造成的约束。提出的MLM方式就是随机盖住一些token,然后目标函数是预测哪些被盖住的token。
(打算先看完BERT再去看ViLT)