欢迎光临散文网 会员登陆 & 注册

深度之眼预训练大模型背景下的知识问答与对话生成

2023-06-21 21:49 作者:呀我滴sixgod尼  | 我要投稿

BERT 预训练模型及文本分类

BERT 全称为 Bidirectional Encoder Representations from Transformer,是谷歌在 2018 年 10 月发布的语言表示模型。BERT 通过维基百科和书籍语料组成的庞大语料进行了预训练,使用时只要根据下游任务进行输出层的修改和模型微调训练,就可以得到很好的效果。BERT 发布之初,就在 GLUE、MultiNLI、SQuAD 等评价基准和数据集上取得了超越当时最好成绩的结果。但在深入了解 BERT 结构之前,先需要了解一下什么是语言模型,以及在 BERT 诞生之前人们是如何进行文本向量化的。

语言模型和词向量

语言模型 是用于计算文本序列概率的模型。在自然语言处理的发展中,应用较为广泛的语言模型有两种:统计式语言模型和神经网络语言模型。接下来就将分别介绍一下它们。
统计式语言模型
统计式语言模型(Statistical Language Model)是根据概率分布,计算字词所组成的字符串的几率的模型,简单来说,统计式语言模型就是计算一句话符不符合语言规律。比如,使用语言模型计算出「我今天吃了一个苹果」的概率,一定比「苹果个我今天吃了一」的概率大,所以前者比后者存在的可能性更大。
在具体构建统计式语言模型时,了便于计算,转化为公式 (2):


深度之眼预训练大模型背景下的知识问答与对话生成的评论 (共 条)

分享到微博请遵守国家法律