OpenAI发布对齐研究工作合集

2023-03-20 08:00 作者:小牛翻译NiuTrans 0人读过 | 我要投稿

本文首发于网站机器翻译学堂

转载事宜请后台询问哦

译者|陈昊

单位|东北大学自然语言处理实验室

人工智能对齐是近年来被逐渐重视的一个研究方向，目的是让AI系统的目标和人类价值观利益相对齐。如果AI和人类利益相违背容易造成产生错误的目标，损害人类利益甚至脱离控制等不良后果，例如，超大规模预训练模型生成大量符合语言规则但却失真的信息，甚至发表歧视性言论，实现AI对齐也主要存在三大挑战：选择合适的价值观、将价值观编码进AI系统中、选择合适的训练数据[1]，更多相关基本概念可见博客每日AI前沿术语：人工智能对齐（AI alignment），本文介绍了OpenAI在实现对齐研究中的一些技术方法。

OpenAI的对齐研究皆在使通用人工智能（Artificial General Intelligence，AGI）与人类价值观保持一致并遵循人类意图。他们采用了一种迭代的、经验主义的方法：通过尝试对齐功能强大的人工智能系统，可以了解哪些技术手段是有效的，从而提高使人工智能系统更安全、更协调的能力，并通过实验研究了对齐技术如何扩展以及它们将在那里中断。

该研究解决了OpenAI最强大AI系统中的对齐问题以及在通往AGI的道路上预计会遇到的对齐问题，目标是尽可能地推动当前对齐工作，并理解记录成功或失败的原因。研究人员表示即使没有全新的对齐理念，也可以构建充分对齐的AI系统，从而大幅推进对其研究进展。

未对齐的AGI可能对人类构成重大风险，但解决AGI对齐问题可能非常困难，需要全人类共同努力。因此，OpenAI致力于在安全的情况下公开分享对齐研究工作：他们希望他们的对齐技术在实践中的实际效果保持透明，以及希望每个AGI开发人员都使用世界上最好的技术。

在高层次上，该对齐研究方法侧重于为非常智能的AI系统设计可扩展的训练信号，该系统与人类意图一致，它主要有以下三大支柱：

1.使用人类反馈训练AI系统

2.训练人工智能系统以协助人类评估

3.训练人工智能系统进行对齐研究

使人工智能系统与人类价值观保持一致也带来了一系列其他重大的社会技术挑战，例如决定这些系统应该与谁保持一致。

使用人类反馈训练AI系统

来自人类反馈的强化学习是OpenAI当下调整语言模型的主要技术。他们训练了一类称为InstructGPT的模型，这些模型源自预训练的语言模型，例如GPT-3，经过训练以遵循人类意图：指令给出的明确意图和隐含意图，如真实性、公平性和安全性。

结果表明，目前以对齐为重点的微调有很多容易实现的成果：与100倍大的预训练模型相比，人类更喜欢InstructGPT，而其微调成本不到 GPT-3 预训练计算的 2%以及需要大约 20,000 小时的人工反馈。他们希望这个工作能够激励业内其他人增加对大型语言模型对齐的投资，并提高用户对部署模型安全性的期望。

OpenAI API为对齐研究提供了一个非常有用的环境：它提供了一个丰富的反馈循环，以了解对齐技术在现实世界中的实际效果。总体来说，比起预训练模型而言，客户更青睐于 InstructGPT。

然而，当前的 InstructGPT 距离完全对齐仍有非常遥远的一段距离：它们有时不遵循简单的指令、并不总是真实的、不能可靠地拒绝有害的任务以及有时会给出有偏见或不良的反应。一些客户发现 InstructGPT 的响应比预训练模型的创造性要差得多，这是研究人员在公开可用的基准上运行 InstructGPT 时没有意识到的。研究人员还致力于从人类反馈中发展对强化学习的更详细的科学理解，以及如何提高人类反馈的质量。

OpenAI 研究人员还表示对齐 API 比对齐 AGI 容易得多，因为 API 上的大多数任务对人类来说并不是很难监督，而且语言模型并不比人类更聪明。不期望来自人类反馈的强化学习足以对齐 AGI，但它是可扩展对齐方案的核心构建块，因此完善这种方法很有价值。

辅助人类评估的训练模型

来自人类反馈的强化学习有一个基本限制：它假设人类可以准确地评估AI系统正在执行的任务。目前人类在这方面做得很好，但是随着模型变得越发强大，他们将能够完成人类更难以评估的任务（例如找出大型代码库或科学论文中的所有缺陷）。模型可能会学会告诉人类评估者他们想听什么，而不是告诉他们真相。为了扩展对齐，OpenAI希望使用递归奖励建模、辩论和迭代放大等技术。

OpenAI目前研究的主要方向是基于递归奖励模型（Recursive Reward Modeling RRM）：训练可以帮助人类在仅凭人力难以直接评估的任务上评估他们模型的模型。例如：

训练了一个模型来总结书籍。如果人们不熟悉这本书，评估书本摘要需要很长时间，但他们的模型可以通过编写章节摘要来帮助人类评估。
训练了一个模型来帮助人类通过浏览网页并提供报价和链接来评估事实的准确性。在简单的问题上，该模型的输出已经优于人类编写的响应。
训练了一个模型让它在自己的输出上写下批评性评价：在基于查询的摘要任务中，对批评性评论的帮助将人类在模型输出中发现的缺陷平均增加了50%。即使他们要求人类编写看似合理但不正确的摘要，这仍然成立。
他们正在创建一组编码任务，这些任务被选择为非常难以可靠地为无人协助的人类进行评估，他们也希望尽快发布该数据集。

即使OpenAI的AI系统提出了非常有创意的解决方案（例如AlphaGo的第37步），对齐技术也需要发挥作用，因此研究人员对训练模型以帮助人类区分正确的解决方案和误导性或欺骗性的解决方案特别感兴趣，他们表示尽可能多地了解如何在实践中进行AI辅助评估的最佳方法是构建AI助手。

训练人工智能系统进行对齐研究

目前还没有已知无限可扩展解决方案来解决对齐问题，随着人工智能的不断进步，OpenAI预计会遇到一些他们在当前系统中尚未观察到新对齐问题。

他们认为找到一个无限可扩展的解决方案可能非常困难。所以他们的目标是采用更务实的方法：构建和调整一个系统，该系统可以比人类更快更好地取得对齐研究进展。

随着研究人员在这方面取得进展，他们的人工智能系统可以接管越来越多的对齐工作，并最终构思、实施、研究和开发比现在更好的对齐技术。这些系统将人类一起工作，以确保他们自己的继承者与人类目标更加一致。

研究人员表示，评估对齐研究比构建它要容易得多，尤其是在提供评估帮助的情况下。因此，研究人员将越来越多的精力集中在审查人工智能系统所做的对齐研究，而不是自己进行这项研究，他们的目标是训练模型如此对齐，以便可以省去对齐研究所需的几乎所有认知劳动。

重要的是，他们只需要“更狭义”的AI系统，这些系统在相关领域具有人类水平的能力就可以像人类一样进行对齐研究，并预计这些人工智能系统比通用系统或比人类更智能的系统更容易对齐。

语言模型特别适合自动化对齐研究，因为它们“预装”了大量来自阅读互联网的关于人类价值观的知识和信息，开箱即用，由于它们并不是独立的人格，因此也不会追求自己的目标，要进行对齐研究，它们不必不受限制地访问互联网。许多对齐研究任务可以表述为自然语言或编码任务。

WebGPT、InstructGPT和Codex的未来版本可以作为对齐研究助手提供基础，但它们的能力还不够，虽然研究人员不知道它们的模型何时能够为对齐研究做出有意义的贡献，但他们认为提前开始这项研究非常重要。一旦训练了一个可能有用的模型，他们会开放研究让外部对齐研究团队可以访问它。

弊端

OpenIAI研究人员对这种调整AGI的方法感到非常兴奋，随着AI技术的发展，它也需要进行调整和改进。同样该方法也存在一些重要的缺点：

低估了稳健性和可解释性研究的重要性，这两个领域OpenAI目前投资不足。
使用AI辅助进行评估有可能扩大或放大AI辅助中存在的细微的不一致、偏见或漏洞。
调整AGI可能涉及解决与调整当今AI系统截然不同的问题。他们预计过度会有些连续，但如果存在重大的不连续性或范式转变，那么从InstructGPT等对齐模型中学到的大部分经验可能不会直接起作用。
对齐问题中最困难的部分可能与为他们的AI系统设计可扩展且对齐的训练信号无关，即便假设为真，这样的训练信号也是必要的。
从根本上来说，对齐能够有意义地加速对齐研究的模型可能并不比对齐AGI更容易。换句话说，如果没有正确对齐，能力最差的模型帮助对齐研究可能太危险了，他们将不会从自己的系统中获得太多帮助来解决对齐问题。

参考链接：

[1]每日AI前沿术语：人工智能对齐（AI alignment）:https://hub.baai.ac.cn/view/16083
[2]Our approach to alignment research：https://openai.com/blog/our-approach-to-alignment-research/