BERT 论文逐段精读【论文精读】

2023-01-20 22:45 作者:梦到死锁的银行家 0人读过 | 我要投稿

BETR：Bidirectional Encoder Representations from Transformers(transformer模型的双向编码器表示)

BERT和ELMo的对比：ELMo用的是基于RNN的架构，BERT用的是transformer，所以ELMo针对一些下游任务，需要对架构做一些调整，而BERT就不需要做很大的调整

BERT和GPT的对比，GPT是用左边的信息预测未来的信息，是单向的；而BERT是双向的，也就是利用上下文的信息

使用预训练模型做特征表示的两种策略：feature-based和fine-tuning。

引出作者的想法

以上的方法在做预训练的表征的时候会有局限性，因为标准的语言模型是单向的，所以存在一定的局限性。比如GPT是从左到右的架构，但是比如分析句子情感的任务，从左到右和从右到左都是合法的；而两个方向的信息应该都有用，所以针对此类任务，应该使用两个方向的信息，效果会更好。

作者的做法

使用“完形填空”方式(masked lanuage model, MLM)来预训练以减轻单向性造成的约束。提出的MLM方式就是随机盖住一些token，然后目标函数是预测哪些被盖住的token。

（打算先看完BERT再去看ViLT）

标签：

BERT 论文逐段精读【论文精读】的评论 (共条)