BERT 论文逐段精读【论文精读】


BERT 导论:关注的研究方向——预训练
预训练在句子层面和词源层面的nlp任务中展现了很高效的改进。
句子层面:情感分析、关系预测等
词源方面:实体识别、关系问答等
fine-grained output 细粒度地输出
使用预训练模型做特征表示时,有两类策略:
基于特征 ELMo
基于微调 GPT
都是单向的预测模型,具有相同的目标函数。

提出了上面的方法存在局限性,只能单方向的查看文本,但是事实上双向地查看文本也是合理的。

提出方法:使用了一个带掩码的语言模型,随机掩住句子中的一些词源,通过上下文去“完形填空”。
做的任务:一、预训练了一个深的双向Transformer。二、预训练了一个“句子预测”的文本匹配表示,判断两个句子是否是上下文。

展示贡献:
一、展示了双向信息的重要性
二、预训练模型对于特定任务不需要大的改动
BERT方法:
两步:
1、预训练:
首先在没有标记的数据集上面进行预训练,得到初始的参数。
2、微调
在下游任务中,用预训练好的参数初始化BERT,然后用标记好的数据进行微调参数。

可以学习的参数来自嵌入层和transformer块。
