什么是大语言模型?
关于大语言模型是什么、为什么它们被使用、不同类型以及未来可能涉及的 LLM(大语言模型)应用的基础知识。
翻译自 What Is a Large Language Model? 。

图片来自 Pexels
首先,让我们回答一个问题,“LLM 代表什么?” LLM 代表大语言模型(Large Language Model)。当然,这引出了一个非常重要的第二个问题,“大语言模型是什么?” 在本文中,我们将提供大语言模型的定义,并讨论 LLM 的含义。使用这个资源来探讨大语言模型是什么,LLM 在人工智能背景下是什么,为什么它们被使用,不同类型的大语言模型以及未来可能的发展。
LLM 或大语言模型
LLM 正成为开发人员和数据科学家之间的主要话题,他们热衷于探索使用深度学习技术创建先进人工智能(AI)项目的新方法。流行的 LLM 包括 OpenAI 的 GPT、Google 的 PaLM2(其聊天产品 Bard 基于此),以及 Falcon;特别是 GPT 已成为全球现象。随着这一话题变得越来越受欢迎,越来越多的人熟悉 LLM 代表大语言模型。
什么是 LLM?解释大语言模型
大语言模型的定义:LLM 是一种以其巨大的规模为特征的语言模型,能够包含数十亿个参数,构建复杂的人工神经网络。这些网络由采用深度学习技术的 AI 算法驱动,并使用庞大的数据集来评估、规范和生成相关内容,以及进行准确的预测。LLM 通常与生成式 AI 相关联,因为它们通常被设计用来生成基于文本的内容。
与标准语言模型相比,LLM 处理极其庞大的数据集,这可以显著增加 AI 模型的功能和能力。“大型”没有固定的定义,但通常大语言模型至少包含十亿个参数(机器学习变量)。
LLM 被称为自然语言处理中的基础模型,因为它们是一个单一模型,可以执行其职责范围内的任何任务。LLM 起源于早期的 AI 模型,如 1966 年在美国麻省理工学院首次开发的 ELIZA 语言模型。现代 LLM 在早期阶段通过一组数据进行训练,然后使用各种技术(训练)来建立模型内的关系并生成新内容。
自然语言处理(NLP)应用通常依赖于语言模型,允许用户以自然语言输入查询,以生成响应。
大语言模型的用途
LLM 用于什么?与所有 AI 系统一样,大语言模型被构建用于执行一项功能 - 通常是帮助改善语法或语义的书面和口头语言,并在易于理解的方式传达思想和概念。
LLM 还可以在从互联网收集的代码存储库上进行训练,生成多种语言的相关代码片段,以帮助开发人员简化开发过程。开发人员可以简单地将基于代码的提示输入 LLM 或基于 LLM 的工具(如 GitHub Copilot),然后生成所选择编程语言中可用的代码。
为什么使用 AI 大语言模型?
由于 AI 大语言模型不针对特定目标或任务,因此它们可以应用于几乎任何项目。以 ChatGPT 为例,基于 LLM 的聊天机器人可以对大多数查询生成响应,借助大量数据提供(大多是)事实性、有趣甚至有趣的答案。这种广泛的潜力是 LLM 被使用的核心原因之一。
此外,与需要不断精炼或优化的标准模型不同,LLM只需要一个提示来执行任务,往往能够提供与手头问题相关的解决方案。
然而,尽管有众多优点,LLM 已知会遇到幻觉问题。这指的是生成的文本与任务几乎没有关联,通常包含不准确的信息,有时会产生毫无意义或与现实场景迥然不同的响应。
常见的大语言模型用途和 LLM 项目包括:
LLM 可以在多种语言上进行训练,以快速翻译其中一种语言为另一种语言。Falcon 就是一款具有这一功能的 LLM。
Bard 和 ChatGPT 是使用大语言模型的热门文本生成工具的示例。这些 LLM 可以重新编写一段文本以在语法上进行改进,或者赋予它不同的风格或语气。它们还可以对内容进行分类和分类,以使其更容易理解。
上述提到的 LLM 还可以总结大段文本或多个页面的内容,以帮助用户进行研究。文本还可以进行情感分析,以帮助用户理解其整体意图:这对教育和学习非常有用。
LLM 被用来创建更好的对话聊天机器人,生成更自然、有用和富有见地的回答。这使用户可以无拘束地讨论脑海中的任何事情。
LLM 模型可以简化并加速软件开发过程,根据开发者的提示生成选择的编程语言中的代码片段。
不同类型的大语言模型
以下是四种不同类型的大语言模型的摘要,您可能会遇到这些类型。
1. Zero Shot
zero-shot 模型是标准的 LLM,意味着它经过通用数据的训练,以在某种程度上提供用于常见用例的结果。这些模型不需要额外的训练。
2. 微调或领域特定(Fine Tuned or Domain Specific)
微调模型接受额外的训练,以扩展初始的 zero-shot 模型,以提高其效果。OpenAI Codex 就是一个例子,通常用作基于 GPT-3 的项目的自动完成编程工具。
3. 语言表示(Language Representation)
语言表示模型使用深度学习技术和变换器(产生生成式 AI 的架构),适用于自然语言处理。这使得语言可以转化为视觉媒体,如写作。
4. 多模态(Multimodal)
多模态 LLM 可以处理文本和图像,而不像早期的 LLM 只能生成文本。GPT-4 就是一个例子,它是 GPT 的新型多模态版本。
大语言模型与其他机器学习模型的对比
要确定何时可以使用大语言模型而不是使用使用较小数据集的其他机器学习模型,重要的是要确定 LLM 与使用较小数据集的模型相比的优势和局限性。
LLM的优势
模型可以通过额外的训练进行微调,以适应特定目的。
LLM 可以执行多个任务,并用于各种部署。
这些模型可以轻松地在未标记的数据上进行训练。
LLM 生成快速响应,延迟低。
大量参数和训练数据意味着 LLM 可以访问比标准模型更广泛的知识库,使其能够生成更深入和复杂的响应。
LLM 的局限性
开发成本可能会很高,因为需要昂贵的硬件。
LLM 可能具有高昂的运营成本。
LLM 因涉及数十亿参数而极其复杂。
在某些情况下,很难确定 LLM 为何生成了一个结果。
LLM可能受到故障令牌的影响,这是导致故障的恶意提示。
在未标记数据上训练的模型可能具有一定程度的偏见。
LLM 有时可能会产生幻觉,即不准确的响应。
结论
那么,什么是大语言模型?实际上,大语言模型可以是许多不同的东西,因为大语言模型的潜力是巨大的。这些模型有能力彻底改变各个领域,从自然语言处理到文本生成。然而,重要的是要注意,这些模型的真正潜力最终由开发和利用它们的人类塑造。
尽管人工智能、机器学习和大语言模型发展成为类似于科幻电影中描绘的那种有意识程序的想法可能是纯粹的推测,但它们对我们的社会和产业的影响无疑将继续增长。
肯定会受益于这种预测变化的行业包括技术、医疗保健、游戏、金融和机器人技术 - 同时,更先进的模式正在扩展 LLM 的用例,现在可以实现从文本到 3D 和文本到视频的转换。
这可能会看到LLM用于设计机器人系统的复杂蓝图,或者生成视频游戏中的3D角色和环境。与此同时,数字生物学的进步可能有助于设计能够预测人体变化的模型,从而彻底改变了健康领域的科学研究。
随着研究人员和工程师不断拓展这些技术的边界,我们可以期待看到更多令人着迷的进展和应用。
