深蓝学院生成式预训练语言模型：理论与实战

2023-07-29 17:34 作者:东少Hzy 0人读过 | 我要投稿

BERT（Bidirectional Encoder Representations from Transformers）通过预训练来学习无标注数据中的深度双向表示，预训练结束后通过添加一个额外的输出层进行微调，最终在多个NLP任务上实现了SOTA。

预训练语言模型在实践中证明对提高很多自然语言处理任务有效，其中包括句子层级的任务，比如自然语言推断（natural language inference）和复述（paraphrasing），还有token层级的任务，比如命名实体识别（named entity recognition）和问答（question answering）。

预训练模型使用方法

在下游任务中应用预训练语言模型表示的方法有两种：feature-based的方法和fine-tuning的方法。举例来说，ELMo这种预训练语言模型使用feature-based的方法，通过将ELMo的预训练的表示作为额外的特征输入到特定于任务的模型中去；GPT使用fine-tuning的方法，通过引入少量的特定于任务的参数，在下游任务中训练时所有的预训练参数。

语言模型的单向与双向

截止BERT之前的预训练语言模型都是单向的（unidirectional），包括GPT和ELMo，这样的方法对句子层级的任务不是最优的，而且对于token层级的任务比如问答非常有害。BERT使用masked language model（MLM）的方法来预训练，这种方法能够训练一个双向的（directional）语言模型。除了masked language model的预训练的方法，BERT还使用了next sentence prediction的预训练方法。

标签：

深蓝学院生成式预训练语言模型：理论与实战

深蓝学院生成式预训练语言模型：理论与实战的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

深蓝学院生成式预训练语言模型：理论与实战

本文作者的其他文章

深蓝学院生成式预训练语言模型：理论与实战的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

深蓝学院生成式预训练语言模型：理论与实战的评论 (共条)