自然语言处理实用教程 | 概念篇 | 2023年版

第 1 章 什么是 AI
AI 即 人工智能,它是英文 Artificial Intelligence 的简称。它是指一种模拟和模仿人类智能的技术和理论。AI 的目标是开发出能够像人类一样进行推理、学习、决策和解决问题的智能系统。
为了达成以上目标,AI 衍生出了多门学科,例如 自然语言处理(NLP)、计算机视觉(CV)和语音处理等学科。这些学科下还有多种应用,例如在自然语言处理中的 ChatGPT 和 计算机视觉中的人脸识别。
那么 AI 是如何得到类似人类一样的能力呢?其实就是从数据中学习,因此 AI 有时也会被称为数据科学,它需要从大量数据中学习各种知识,从而得到相应的能力,例如 ChatGPT 就需要学习大量的文本对话知识。
而 ChatGPT 靠什么来学习和存储知识?答案是从神经网络,它靠模拟人类大脑的计算过程设计而来,通常这种神经网络也被称为模型,当模型的参数越大时该模型能学习到的东西
也越全面和强大,这也是为什么最近各个机构把模型越做越大。

第 2 章 什么是 NLP
NLP 即自然语言处理,它是英文(Natural Language Process)的简称。它希望计算机能够像人和其他动物一样能够听懂和理解语言,为此,NLP 作为一门学科诞生了。
那么 NLP 有哪些应用呢?最为人熟知得恐怕就是 ChatGPT 了,它就像一位博学的大师,上知天文下知地理,为你解答各种问题。在感叹当前最热门和新奇的 NLP 应用之余,你有没有思考过它是如何实现和运行的呢?它是不是如你想的一样复杂呢?
一位获得图灵奖的大佬则认为 ChatGPT 只是成功的工业应用,而不是一个创新发明。因为 ChatGPT 使用了更多的语料以及更大参数的模型训练而来,它其实就是学习了海量的知识,从而得到了 “上知天文下知地理” 的能力。
以上介绍的只是 NLP 中目前最热门的 文本生成 领域,其实 NLP 还包含很多其他应用,
例如 文本聚类、文本分类、文本转向量、文本相似性、命令实体识别、机器翻译、文本摘要和完形填空等。
通过以上简单的介绍,不知道你对于 NLP(文本) 有没有产生清晰的认知?接下来我们将按照不同领域来介绍 NLP(文本)

第 3 章 NLP 有哪些应用
刚刚已经介绍了 NLP 中的一些应用,下面介绍一下这些应用的基本含义。
首先是 文本分类,它表示将多个文本分到对应的类别,例如我提供给你两段文本,分别是 “你今天学习了吗” 和 “你今天跑步了吗”,并将它们分类到 “学习” 和 “运动” 两个类别。 如果是人类来分类的话肯定很快就分类好了,不就是将 “你今天学习了吗” 分类到 “学习”,然后将“你今天跑步了吗” 分类到 “运动” 吗。但这些知识也是靠你在小时候不断的学习得到的,对于AI来说还是需要一个学习的过程,因此我们需要提供大量的标注数据提供给模型进行学习,例如将 “你今天跑步了吗” 标注为 “运动”,将“你今天学习了吗” 标注为 “学习”,除此之外我们还需要提供类似的语料给模型进行学习,一般而言这些语料越多,并且越精准,模型学习的效果就越好。
同理,对于信息抽取(实体识别),我们需要将一段文本中的关键信息抽取出来,例如对于 “你今天跑步了吗”,我认为 “跑步” 是一个关键词,那么我将 该文本中的跑步抽取成 “运动”:“跑步”,这里我们还将为跑步打上了一个标签,这个标签的作用是表示该信息属于哪个关键信息的类别。其实信息抽取也可以看成是文本分类,只不过它是在一段文本中的每个词做分类。
还有一种应用就是文本关联度(文本相似度),它通过计算两段文本的相似程度来判断这两段文本是否关联。例如 “你今天跑步了吗” 和 “今晚跑步了吗” 就非常相似。当然,文本关联度还有更多应用,例如将问题和答案看作一个关联组合,那么就得到了答案和问题的匹配系统,就比如 问题“你今天跑步了吗” 和答案 “今天我跑步了,那你呢?” 就可以形成关联对。
文本生成是近年NLP最火的领域了,其中的代表就是 ChatGPT。我们向它进行提问,那么它就会返回给我们一个答案,这就是文本生成。例如我们提问 “NLP需要学什么”,ChatGPT就会回答一大段文字给你。并且文本生成甚至可以实现文本分类和信息抽取等应用。

第 4 章 未来展望
随着 ChatGPT 的出现,许多机构也开始在研究大模型,并且这些机构慷慨的分享大模型给开发者们,让我们也能实现类似 ChatGPT的应用。
伴随着大模型的“军事备赛”,许多公司开始招聘 大模型算法工程师,而传统的较小模型可能会在某些领域被淘汰。因此在未来短时间内,学习大模型并将它们搞懂是十分有必要的,不然我们可能就会被淘汰。
首先你可能需要了解的大模型就是 ChatGLM 系列的模型,这是由清华大学和智谱开发的大模型,是最近十分经典的模型。还有就是国外meta开发的 Llama 类模型,它在英文方面是领先级的模型,但国内开发者经过预训练或微调得到了中文版本的 Llama 模型。以上两个模型可能是你必须了解和熟悉的,同时你可以在 huggingface 网站不定期查看趋势排行榜,寻找最新的模型进行试用,这样我们才不会被新技术淘汰。