深蓝生成式预训练语言模型：理论与实战

2023-07-16 13:38 作者:戰億殇 0人读过 | 我要投稿

提出基于双向的Encoder表示。

使用两个策略：

(1）masked-language-model(MLM)，受经典的完形填空Cloze task[4]启发。这也是绝大多数预训练模型所采用并且优化的切入点。从语料里mask掉（可以随机，也可以加入一些知识）一些字词，试图准确地预测task掉的内容。

(2) next sentence prediction，判断两个句子是否具有上下文关系。(貌似在某个地方看到，这个任务没有决定性的功能，不确定。)

也就是说，GPT只有单向学习；ELMo虽然是双向学习，但是过于简单。

BERT双向学习，并且更加复杂。

标签：

深蓝生成式预训练语言模型：理论与实战的评论 (共条)