深蓝生成式预训练语言模型:理论与实战
提出基于双向的Encoder表示。
使用两个策略:
(1)masked-language-model(MLM),受经典的完形填空Cloze task[4]启发。这也是绝大多数预训练模型所采用并且优化的切入点。从语料里mask掉(可以随机,也可以加入一些知识)一些字词,试图准确地预测task掉的内容。
(2) next sentence prediction,判断两个句子是否具有上下文关系。(貌似在某个地方看到,这个任务没有决定性的功能,不确定。)
也就是说,GPT只有单向学习;ELMo虽然是双向学习,但是过于简单。
BERT双向学习,并且更加复杂。