自然语言处理：基于预训练模型的方法

2023-03-31 00:13 作者:破产的哔站用户 0人读过 | 我要投稿

链接：https://pan.baidu.com/s/170U6oBoo-Hf0zIUub7Runw?pwd=6zbs

提取码：6zbs

精彩书评

自然语言处理被誉为“人工智能皇冠上的明珠”。近年来，以BERT、GPT 为代表的大规模预训练语言模型异军突起，使问答、检索、摘要、阅读理解等自然语言处理任务性能都得到了显著提升。《自然语言处理：基于预训练模型的方法》一书深入浅出地阐述了预训练语言模型技术，全面深入地分析了它的发展方向，非常适合人工智能和自然语言处理领域的学习者和从事研发的人士阅读。读者可在较短的时间内了解和掌握其关键技术并快速上手。

特此推荐！

周明

创新工场首席科学家

微软亚洲研究院原副院长

中国计算机学会副理事长

国际计算语言学会（ACL）主席（2019 年）

预训练语言模型是当今自然语言处理的核心技术。车万翔教授等人所著的本书从基础知识、预训练词向量、预训练模型等几个方面全面系统地介绍了该项技术。选题合理，立论明确，讲述清晰，出版及时。相信每一位读者都会从中获得很大的收获。向大家推荐！

李航

ACL/IEEE Fellow

字节跳动人工智能实验室总监

在运动智能和感知智能突飞猛进的发展态势下，以自然语言处理为核心的认知智能已成为人工智能极大的挑战。随着业界对认知智能重视程度的持续提升，基于预训练模型的自然语言处理方法一经提出，便快速席卷了诸多NLP 任务。本书系统地介绍了该类方法，并配套了丰富的实践案例和代码，对于从事AI 技术研究和相关行业的爱好者而言，是一本不可多得的参考学习佳作！

胡郁

科大讯飞执行总裁

精彩书摘

预训练模型并不是自然语言处理领域的“首创”技术。在计算机视觉（ComputerVision，CV）领域，以ImageNet[14] 为代表的大规模图像数据为图像识别、图像分割等任务提供了良好的数据基础。因此，在计算机视觉领域，通常会使用ImageNet进行一次预训练，让模型从海量图像中充分学习如何从图像中提取特征。然后，会根据具体的目标任务，使用相应的领域数据精调，使模型进一步“靠近”目标任务的应用场景，起到领域适配和任务适配的作用。这好比人们在小学、初中和高中阶段会学习数学、语文、物理、化学和地理等基础知识，夯实基本功并构建基本的知识体系（预训练阶段）。而当人们步入大学后，将根据选择的专业（目标任务）学习某一领域更深层次的知识（精调阶段）。从以上介绍中可以看出，“预训练+ 精调”模式在自然语言处理领域的兴起并非偶然现象。

由于自然语言处理的核心在于如何更好地建模语言，所以在自然语言处理领域中，预训练模型通常指代的是预训练语言模型。广义上的预训练语言模型可以泛指提前经过大规模数据训练的语言模型，包括早期的以Word2vec、GloVe 为代表的静态词向量模型，以及基于上下文建模的CoVe、ELMo 等动态词向量模型。在2018 年，以GPT 和BERT 为代表的基于深层Transformer 的表示模型出现后，预训练语言模型这个词才真正被大家广泛熟知。因此，目前在自然语言处理领域中提到的预训练语言模型大多指此类模型。预训练语言模型的出现使得自然语言处理进入新的时代，也被认为是近些年来自然语言处理领域中的里程碑事件。相比传统的文本表示模型，预训练语言模型具有“三大”特点——大数据、大模型和大算力。接下来介绍这“三大”特点代表的具体含义。

1. 大数据

“工欲善其事，必先利其器。”要想学习更加丰富的文本语义表示，就需要获取文本在不同上下文中出现的情况，因此大规模的文本数据是必不可少的。获取足够多的大规模文本数据是训练一个好的预训练语言模型的开始。因此，预训练数据需要讲究“保质”和“保量”。

•“保质”是希望预训练语料的质量要尽可能高，避免混入过多的低质量语料。这与训练普通的自然语言处理模型的标准基本是一致的；

•“保量”是希望预训练语料的规模要尽可能大，从而获取更丰富的上下文信息。

在实际情况中，预训练数据往往来源不同。精细化地预处理所有不同来源的数据是非常困难的。因此，在预训练数据的准备过程中，通常不会进行非常精细化地处理，仅会预处理语料的共性问题。同时，通过增大语料规模进一步稀释低质量语料的比重，从而降低质量较差的语料对预训练过程带来的负面影响。

2. 大模型

在有了大数据后，就需要有一个足以容纳这些数据的模型。数据规模和模型规模在一定程度上是正相关的。当在小数据上训练模型时，通常模型的规模不会太大，以避免出现过拟合现象。而当在大数据上训练模型时，如果不增大模型规模，可能会造成新的知识无法存放的情况，从而无法完全涵盖大数据中丰富的语义信息。因此，需要一个容量足够大的模型来学习和存放大数据中的各种特征。在机器学习中，“容量大”通常指的是模型的“参数量大”。那么，如何设计这样一个参数量较大的模型呢？这里主要考虑以下两个方面。

• 模型需要具有较高的并行程度，以弥补大模型带来的训练速度下降的问题；

• 模型能够捕获并构建上下文信息，以充分挖掘大数据文本中丰富的语义信息。

综合以上两点条件，基于Transformer 的神经网络模型成为目前构建预训练语言模型的最佳选择。首先，Transformer 模型具有较高的并行程度。Transformer 核心部分的多头自注意力机制（Multi-head Self-attention）[15] 不依赖于顺序建模，因此可以快速地并行处理。与此相反，传统的神经网络语言模型通常基于循环神经网络（RNN），而RNN 需要按照序列顺序处理，并行化程度较低。其次，Transformer 中的多头自注意力机制能够有效地捕获不同词之间的关联程度，并且能够通过多头机制从不同维度刻画这种关联程度，使得模型能够得到更加精准的计算结果。因此，主流的预训练语言模型无一例外都使用了Transformer 作为模型的主体结构。

3. 大算力

即使拥有了大数据和大模型，但如果没有与之相匹配的大算力，预训练语言模型也很难得以实现。为了训练预训练语言模型，除了大家熟知的深度学习计算设备——图形处理单元（Graphics Processing Unit, GPU），还有后起之秀——张量处理单元（Tensor Processing Unit, TPU）。下面就这两种常见的深度学习计算设备进行简单的介绍。

查看全部↓

前言/序言

推荐序

自然语言处理的目标是使得机器具有和人类一样的语言理解与运用能力。在过去的十年里，自然语言处理经历了两次里程碑式的重要发展。第一次是深度学习的勃兴，使得传统的特征工程方法被摒弃，而基于深度神经网络的表示学习迅速成为自然语言处理的主流。第二次则是2018 年以来大规模预训练语言模型的应用，开启了基于“预训练+ 精调”的新一代自然语言处理范式。每一次的发展都为自然语言处理系统的能力带来了巨大的进步。与此同时，这些令人欣喜的发展也带给我们很多关于语言智能的更本质的思考。由车万翔等人所著的《自然语言处理：基于预训练模型的方法》一书从预训练模型的角度对这两次重要的发展进行了系统性的论述，能够帮助读者深入理解这些技术背后的原理、相互之间的联系以及潜在的局限性，对于当前学术界和工业界的相关研究与应用都具有重要的价值。

本书包括三部分，共9 章。书中从自然语言处理与神经网络的基础知识出发，沿着预训练模型的发展轨迹系统讨论了静态词向量、动态词向量，以及语言模型的预训练方法，还深入讨论了模型优化、蒸馏与压缩、生成模型、多模态融合等前沿进展，内容上兼具广度与深度。本书作者车万翔等人研发的语言技术平台LTP，是国内自然语言处理领域较早、影响力大且仍在不断发展完善的开源平台之一。LTP 的“进化”历程也对应着作者对于自然语言处理不同时期范式变迁的思考与实践——从最初发

标签：

自然语言处理：基于预训练模型的方法

精彩书评

目录

精彩书摘

前言/序言