为什么我对我们的对齐方法感到乐观

2023-02-20 14:45 作者:星群译制组 0人读过 | 我要投稿

一些赞成的论点和对常见反对意见的回应

作者：Jan Leike

时间：2022年12月6日

OpenAI的对齐研究方法包括完善RLHF、AI辅助的人类评估以及自动对齐研究。为什么说这是一个好的策略？有什么理由对它持乐观态度？我的乐观态度源于五个方面。

人工智能的积极进展。过去几年的许多发展使人工智能系统比最初看起来更有利于对齐，无论是从人工智能技术树如何摇摆，还是从我们迄今为止收集到的关于对齐的经验证据来看。
适度的目标。我们不是要解决所有的对齐问题。而只是试图对齐一个足够有能力的系统，使其在对齐方面比我们取得更多的进展。
评估比生成容易。这是非常普遍的原则，在许多领域都适用。这对对齐研究也是如此。
我们正为迭代做好准备。我们可以为对齐路径设置迭代的、可测量的改进。
对语言模型的确信。语言模型将足够聪明，可以基于它们实现有用的对齐研究工作。

尽管如此，仍有许多工作要做，关键是要记住，比我们更聪明的系统的对齐方式将与今天模型的对齐方式大不相同。区分乐观和谨慎也很重要：证明重点在于证明新系统是充分对齐的，不能将其转换到证明与早期系统相比情况已经改变。

最后一节回应了对我们方法的一些常见反对意见。

我感到乐观的原因

1. 人工智能的积极进展

1.1 人工智能技术树看起来生长良好

几年前，通向AGI的道路似乎是通过在广泛的游戏和多智能体环境中从头开始训练深度RL智能体。这些智能体将被对齐为最大化简单的得分函数，如生存和赢得游戏，并且对人类的价值观不甚了解。对齐所产生的智能体将困难重重：我们不仅要从头开始创建一个与人类相一致的目标函数，可能还需要向智能体灌输实际的新能力，如理解人类社会、人类关心什么以及人类如何思考。

大型语言模型（LLMs）使这个问题变得容易得多：它们预装了很多人类的知识，包括关于人类偏好和价值观的详细知识。默认情况下，它们并不是试图在这个世界上追求自己目标的智能体，它们的目标函数是相当可塑的。例如，他们很容易被训练得更乖巧。

1.2 经验性的证据是有利的

近年来，一些最令人振奋的对齐工作是经验性的：研究人员建立了他们认为更加对齐的系统的原型，以了解它的实际运作情况和问题所在。这并不是说要贬低概念性的见解，但如果没有数学定理或经验性证据的支持，这些见解的基础总是不稳固的。

基于人类偏好的深度RL。在开始工作的时候，我认为这很有可能不会真的成功。除了在很小的数据集上，GANs最初并没有真正发挥作用，然后花了几年时间和许多研究人员的努力来找出如何使训练稳定的诀窍。然而，RLHF工作得非常好，即使是在视觉上非常奇怪的雅达利游戏上，以及在使用真正人类的反馈时。要让它发挥作用并不容易。Dario对调参的直觉对于使它在雅达利游戏上工作相当重要。训练在当时非常糟糕，因为深度RL通常是这样的，花了很多迭代来使其工作。但它确实复现了。
基于人类反馈的摘要总结。这确实是第一个令人信服的概念证明，证明RLHF在语言模型上是有效的，而且你可以优化那些模糊的、有点含糊的目标。这一点很重要，因为人类的价值观是模糊的，在这篇论文之前，还没有人工智能系统从模糊的目标中学习的明确示范。虽然从理论上讲，学习人类的价值观与学习识别图像中的猫并没有什么本质上的区别，但不清楚针对这些模糊的目标进行优化在实践中是否有效。
InstructGPT证明了在语言模型中存在真正的 "对齐盈余"，而这并不难获得。主要的结果是，在人类的偏好分数上，有效地增加了100倍的模型大小，这绝对疯狂，如果 "仅仅 " 增加5倍的模型大小，我就会感到超级惊讶。所需的人类反馈量是相当适中的，也是可以实现的。~大约50,000次比较，以及大约300,000回合的训练。这个数字是如此之小，以至于我们实际上可以让人类对每一个训练回合进行手工标记。这是第一次表明，即使是适度的微调也能在GPT-3大小的模型尺度上使模型的行为上发生很大的转变，变得更加一致。这是令人难以置信的好消息。
自我批判的模型。在一项对人类来说并不难的任务上，用一个非超人的模型帮助人类多发现50%的缺陷，这是一个令人惊讶的结果，表明我们的模型基本上已经可以为反馈帮助增加很多价值。这让我对递归奖励建模的乐观态度增加了许多：有意义地协助人类评估其实比我之前想象的要容易。也许这是因为我们的人类标注者实际上并不那么小心，或者是因为不是很聪明的模型在注意到随机缺陷方面还是相当不错的。
鉴别者-批评者（DC）差距。DC差距可能是我们现在拥有的最接近经验的衡量标准，即我们能从语言模型中引出多少潜在的知识。大的DC差距意味着模型知道他们回应中的一堆缺陷，当我们好言相劝时，他们并没有告诉我们。我们在批评论文中测得的DC差距出乎意料地小，从那时起，我们一直在努力寻找一种干净的方法，在玩具任务或我们专门为此目的制作的代码数据集上展示这个问题。如果激发潜在的知识实际上是一个大问题，为什么它在今天的模型中很难表现出来？看起来他们其实很擅长告诉我们他们所做的事情有什么问题。尽管如此，令人担忧的是，DC的差距并没有随着模型大小变小而缩小。

我们不要被这些证据所迷惑。到目前为止，它是有利的，但并不意味着它将继续有利。人工智能系统还没有比我们更聪明，所以我们还没有面临真正的问题。但迄今为止的证据仍然算数：如果我们在对齐目前的人工智能系统方面有实质性的困难，我们应该更担心对齐未来的人工智能系统。如果我们不能在简单模式下赢得游戏，我们就不应该期望在困难模式下赢得游戏。但如果我们确实在简单模式下赢了，我们仍然可能在困难模式下失败，我们需要做好准备，努力工作。

2. 适度的目标

在考虑解决对齐问题时，我们很自然地会想到要为整个问题找到一劳永逸的解决方案。在LLM兴起之前，我也曾经这样想过。找到这个一劳永逸的解决方案可能是非常困难的，而且我们并不真正知道如何做到这一点。这项任务似乎非常艰巨，很容易让人对它感到悲观。

但这并不是我们人类需要做的事情。相反，我们只需要制作一个最小可行产品：自动化的对齐研究者，帮助我们更快地取得更多的对齐进展。例如，如果我们将大多数对齐工作的生成自动化，我们就可以专注于它的评估，我声称这要容易得多。换句话说，在这条道路上，我们很可能不需要自己去面对对齐问题的所有最难的挑战，而是可以让人工智能帮助我们解决这些问题。

这有很多好处：

模型不一定要完全对齐。它只需要足够对齐，以帮助我们完成这个狭窄的任务。它不必指出它所知道的某个对齐建议中的所有缺陷（它可以有一个DC缺口），只要我们有一些其他方法来找到它们。它不必有最大的帮助，只要有相当的帮助就可以了。反正我们不信任这个模型所做的事情，如果我们不能严格地评估它，就会抛弃它。
该模型可以 "更窄"。它不需要那么好地理解生物学、物理学或人类社会。在实践中，我们可能会从一个确实了解所有这些东西的LLM开始精调，但我们可以对模型进行一些有针对性的脑损伤，作为一种安全预防措施。更广泛地说，模型只需要在少数领域超过人类水平，而在其他大多数领域可以比人类更差。
增加更多的保障措施是很容易的。系统不需要连接到互联网，不需要与大量的人互动，也不需要运行任意的代码。这些保障措施不会保护我们不受想要突围的超级智能系统的影响，但它们将有助于在一段时间内增加我们的安全系数。
这个模型不需要很多专门机构。该系统不需要设定自己的目标，也不需要追求跨度很大的目标。我们不需要用现实世界中的长期结果来监督它。
该模型不需要持久性记忆。我们可以对模型需要知道的东西进行微调，并使用一个适度规模的环境来保存任务相关的信息。我们不需要模型来决定它应该记住什么。
对齐税并不那么重要。因为这个系统在市场上并不直接与其他可能不那么对齐的系统竞争，只要自动对齐研究的总体成本是可控的，相对于其他训练方法来说，较大的开销可能不会造成很大的影响。

这些方面都应该使我们的工作明显地比实际尝试对齐一个通用的数字代理，在世界范围内像一个CEO一样行事更容易。

然而，自动对齐研究也需要对研究产品进行更严格的审查：因为这项研究大概会告知下一代人工智能系统是如何构建的，这是一条人工智能系统试图获得超越人类力量的道路。此外，成功实现这一目标并不意味着人类在对齐方面的工作已经完成，即使他们不再有足够的认知能力，无法继续做出相对于AI有意义的智力贡献。

3. 评估比生成更容易

这个原则很重要，因为它使我们能够轻易地从系统中获得有意义的对齐工作。如果它是真的，这意味着如果我们把时间和精力集中在评估系统在做什么，而不是自己做这项工作（即使他们的生成能力还不如我们），就可以大大加快研究。

这一属性是递归奖励建模（recursive reward modeling）的基础（在某种程度上也有争议）。如果评估比生成更容易，那么协助的人类比类似的聪明AI生成器更有优势。只要这是真的，我们就可以通过为做这些任务的AI系统创造评价（从而训练）信号来扩展到越来越难的任务。虽然递归奖励建模不会无限地扩展，但也不需要。它只需要有足够的规模，让我们能够用它来监督大量的对齐研究。

评估比生成更容易是非常普遍的属性，在许多领域都适用：

形式化的问题。大多数计算机科学家认为NP !=P，这意味着有一大类问题，对于这些问题，这一属性在形式上是真的。这些问题中的大多数也已经被经验证明对我们能想到的算法具有这一属性。SAT求解，图算法，证明搜索，模型检查，等等。
经典的体育和游戏。任何值得观看的运动或游戏都有这个属性。观众不仅需要知道谁赢了比赛，还需要知道谁领先了，谁的动作或打法很厉害。因此，评价需要足够容易，让绝大多数的观众成员都能做到。同时，生成（玩好游戏）需要有足够的难度，使最好的人类可以很容易地将自己从绝大多数人中区分出来；否则举行比赛就没有什么意思了。例如：在《星际争霸》中，你可以通过观察玩家的单位和经济来判断谁领先；在《DotA》中，你可以通过观察杀敌/死亡统计和获得的金币来判断谁领先；在国际象棋中，你可以通过观察棋子和位置来判断谁领先（尽管很好地评估位置可能很困难）；在足球或橄榄球中，你可以通过观察记分牌和谁的控球时间多来判断谁获胜；诸如此类。
很多消费产品。比较不同智能手机的质量比制造一个更好的智能手机要容易得多。这不仅适用于容易测量的特性，如内存量或像素数，也适用于更模糊的方面，如它的握持感如何，电池能持续多久。事实上，这对大多数（科技）产品来说都是如此，这就是人们关注亚马逊和YouTube评论的原因。反过来说，对于那些个人消费者难以评价的产品，而且政府的规定很少，市场上往往充斥着低质量的产品。例如，营养补充剂经常没有他们声称的好处，不包含他们声称的有效成分的量，或者包含不健康的污染。在这种情况下，评估需要拥有昂贵的实验设备，所以大多数做出购买决定的人没有可靠的信号，他们只能服用补充剂，看看自己感觉如何。
大多数工作：每当公司雇用一名员工时，他们需要知道该员工是否真正帮助他们完成任务。如果花那么多时间和精力来评估员工的工作表现，那是不经济的，所以只能花更少的精力来评估工作表现。这是否有效？我当然不会声称公司在员工的实际表现上能得到一个完美的信号，但如果他们不能比员工更容易地进行评估，那么像绩效改进、晋升和解雇这样的努力基本上是随机的，是浪费时间的。因此，那些不在员工绩效评估上投入大量时间和精力的公司应该会在竞争中胜过其他投入的公司。
学术研究。评估学术研究是出了名的困难，政府资助机构几乎没有区分好坏研究的工具：决定通常需要由非专家做出，很多低质量的工作得到了资助，而像引用次数和发表论文的数量这样的代理指标也被称为过度优化。著名的NeurIPS实验发现学术评审过程中有很多噪声，但容易被忽视的是也有很多有意义的信号：撰写一篇NeurIPS论文通常需要至少几个月的全职工作（比如说>1000小时），而评审通常在几个小时内完成（比如说4个评审各花3小时共12小时）。然而，审稿人委员会77%的时间在接受/拒绝决定上达成一致，94%的时间在接受口头/热点评级的论文上达成一致。这是一个令人难以置信的高一致率（比OpenAI API任务高得多，在该任务中，标注者与标注者的一致率约为70-80%），因为生成的努力比评估多两个数量级。关于破碎的学术激励机制，以及NeurIPS论文是否真正推动了人类的科学知识，有很多话要讲，但似乎至少对于写一篇进入NeurIPS的论文的任务来说，这个说法是正确的。

然而，也有一些任务，这一原则通常是不正确的：写你的签名比评估一个给定的方块字是否是你的签名要容易。加密或哈希一张狗的图片很容易，但要评估某个给定的二进制数据是否是加密或哈希的狗的图片则非常困难。这根本上使得密码学成为可能。

上面的证据并不意味着该原则对对齐研究也是如此。但它肯定在非常大程度上暗示了这一点。换句话说，如果评估NeurIPS论文比写论文要难得多，而且审稿人的意见往往不会超过偶然水平，我们是不是应该把这一点算作反对对齐研究容易自动化的证据？

更有甚者，如果对齐研究的评估真的不比它的生成容易，这甚至对纯粹的人类驱动的对齐研究来说也是个坏消息。在这种情况下，找到对齐问题解决方案的人将无法说服其他人使用该解决方案，因为其他人不知道它是否有任何好处。相反，每个AGI开发者都需要为自己想出一个解决方案。

虽然任何评估对齐研究的代理指标都可能被过度优化，并会导致对齐研究看起来很有说服力，但从根本上说是有缺陷的，但这并不意味着不会有代理指标在一段时间内仍有优化作用。

然而，有一个重要的警告：对抗性构建的输入可能比非对抗性的输入难得多（尽管可能仍然比生成更容易评估）。例如，超人的围棋智能体有简单的漏洞。对齐研究的一个假设性的例子：只需在训练期间控制随机性，就有可能将后门植入模型中。不知道这一点的人类评估者会错过由恶意的AI系统编写的训练代码中的重要缺陷，该系统正在秘密地操纵随机性源。

另一个重要的开放性问题是，如果你不能依赖来自真实世界的反馈信号，那么评估会容易得多。例如，即使你不被允许运行一段代码，对它的评估是否比编写它更容易？如果我们担心AI系统编写的代码可能包含木马和破坏沙盒的代码，那么在仔细审查之前，我们就不能运行它来 "看看会怎么样"。在这种情况下，自己从头开始重写代码可能更容易，而不是发现一个隐藏的缺陷（莱斯定理表明这并不具有防御优势）。

4. 我们正为迭代做好准备

概念性对齐工作的一个问题是，不清楚什么时候有进展，进展有多大。最好的替代方法是 "其他研究人员是否认为正在取得进展"，而这是有缺陷的：对齐研究界对任何概念性的工作是否构成真正的进展，基本上没有分歧。

一旦你为迭代做了准备，很多问题就变得更容易解决了：你有（1）一个基本的系统在工作（即使一开始只是勉强），（2）一个代理指标告诉你，你所做的改变是否是改进。这允许对现有的系统进行渐进式的改变，也允许你从现实中获得信息的反馈循环。在机器学习的比喻中，（1）是一个模型架构，（2）允许我们计算梯度；它们一起使能了梯度下降步骤。

在这个意义上，对齐研究是非常元的：我们正在优化指标（2），衡量我们在制作指标（如对齐的奖励模型）上取得的进展，这些指标可以被优化（如通过RL）来取得进展。我不会赘述明显的好心免责声明，我们不可能无限期地优化任何指标。然而，有些指标是有用的，在需要更好的指标之前，可以优化它们一段时间。

虽然我们还没有为对齐AGI的迭代做好准备，但我们已经成功地为很多导致它的小问题做好了准备。一些例子：

训练InstructGPT以最大化人类对OpenAI API提示的偏好，以及训练ChatGPT以作为对话助手最大化人类的偏好。这让我们可以评估很多不同的模型：我们可以调整超参数，改变数据组合，改变训练方法（例如SFT与PPO），并看看它们的效果如何。不用说，这不是完美的指标，因为它不能很好地捕捉一堆问题（例如不安全的回应）。在某些时候，我们的模型会学会愚弄人类评估员，但它对改进InstructGPT和ChatGPT非常有价值。
通过人类和自动红队来衡量安全措施的对抗稳健性。如果人类需要花费更多的时间和精力来造成安全故障，那么安全措施就得到了改进。
使用有针对性的扰动来衡量AI对人类评估的帮助程度。通过对模型回应引入有针对性的扰动，使其故意变得更好或更坏，我们可以衡量人类在不同环境下对两个不同版本的评价有多好。如果我们保持标注者和模型能力不变，就可以尝试不同形式的协助，并测量人类需要多长时间来评估，以及得到什么样的准确性。
训练批判模型和测量判别者-批判者（DC）差距：如果我们减少DC差距，我们就在减少模型的潜在知识，而这些知识是我们无法获得的。由于鉴别器是用监督学习和SGD训练的，它们应该能够找到激活的任何简单函数来对鉴别任务进行最佳预测；在这种情况下，模型很难隐藏相关知识。
我们想训练对齐研究辅助模型，并在这些模型的完成度上对研究者的偏好进行评估。类似于我们的InstructGPT和ChatGPT设置，可以用它来衡量我们使模型对对齐研究者的作用有多大。

一劳永逸的对齐解决方案将与我们今天所做的非常不同，目前的指标肯定不能一直跟踪进展。但它们确实能让我们朝着这个方向迭代前进，这一点非常有价值。对齐研究界不同意这些指标是否真的指向正确的方向，但他们可以验证我们在短期目标上取得了进展。随着时间的推移，我们的进展将变得更加明显，更容易评估。

5. 语言模型的说服力

在过去的5年里，语言模型已经变得非常聪明，我预计在未来的几年里，它们将继续变得更聪明。我相信，我们自己的认知能力本身并没有什么特别之处，在某些时候，语言模型在任何与我们自己的工作有关的有限语境下的文入文出任务中都会比我们做得更好。很多对齐的工作都可以用这种形式来表述，因此它们相当适合于此。关于这个话题，还有很多话要说，但这里不是说这个的地方。

常见的反对意见

我很乐观，我们可以产生进展，最终说服其他人相信我们方法的优点。如果我们的自动对齐研究人员写了关于嵌入式机构（embedded agency）的论文，从事这个问题的研究人员认为在这个议程上有真正的进展，这算不算？如果语言模型产生了新的可解释性见解，证明在理解Transformer时是有用的呢？如果我们从根本上不信任由AI产生的任何对齐研究，我们就有可能将自己排除在取得进步的巨大机会之外。

下面我将对针对我们的策略提出的具体反对意见作出回应。

递归奖励建模不起作用

对术语做一个简单的澄清。有些人认为递归奖励建模（RRM）是迭代放大的一个实例（放大=使用AI助手，而提炼=RLHF）。然而，大多数人似乎在更狭义的意义上理解迭代放大与模仿学习，这是与递归奖励建模不同的算法，并且有不同的缺点（例如，它没有利用评估比生成更容易的原则）。对迭代放大的反对意见通常是针对模仿学习版本（即因子认知）或辩论来表述的，但我试图在此为RRM重新铸造它们。

混淆的论点

这个反对意见的第一个版本来自于对混淆论点问题的解释：你可以创造一些允许不正确完成的任务的例子，对于这些任务，一个对齐的辩论代理将很难赢得一个恶意的对手。简单地说，存在着一些比生成正确答案更难评估的任务（即上面讨论的原则的反例）。该文章提供了一个使用素数测试的例子：声称一个给定的数字是素数很容易，而在辩论中反驳这一说法需要实际找到一个除数（由于存在统计学上的素数测试，这就更难了）。

该帖子声称，同样的弱点也适用于迭代放大法，但没有提供论据，只提到这将如何适用于事实认知版本的放大法。然而，与RRM不同，事实认知并不十分依赖评估比生成更容易的原则。对那些评价不比生成容易的任务进行监督，在RRM中不会有好的效果，这就是为什么这个原则对对齐研究很重要。

激发潜在的知识

激发潜在知识（ELK）问题是关于让AI系统告诉我们他们所知道的一切，即使我们不能切实地监督他们这样做，因为他们知道的比我们更多。作者讨论了他们期望这个问题如何与辩论、放大和RRM相互作用。他们勾勒了一个假想的场景，即一个AI系统擅长预测生物过程的细节，但却难以向人类解释。这样的系统可以通过预测它对人类生物学的影响来制造一种新的药物，但却无法解释它是如何以及为什么发挥作用。这意味着，即使有类似能力的协助，如果不实际进行人体试验，人类也无法判断这种药物是否可以安全使用，而且这些试验也无法检测到非常缓慢的副作用。在这种情况下，辅助的人类在评估药物方面并不比模型生成药物的能力强，除非我们有足够的安全系数来根据现实世界的结果进行训练，否则RRM不会有好的效果。

回应

原始性测试的例子可以很容易地用RRM进行监督，因为统计学上的原始性测试是如何工作的，可以向人类解释，并被接受为充分的证据。但对于其他任务来说，情况可能就不是这样了。因此，"更深层次的ELK问题 "是与原始性测试相类似的：在这种情况下，模型有一个可靠的 "直觉"，但它无法阐明或提供证据。

让我们用素数测试的比喻来说明这一点。例如，主智能体可以写一些代码，依靠它的 "直觉" 认为一个数字N是素数，而不能提供素数的证据。我们的评估助手可以指出缺乏证据，我们就不得不扔掉这些代码。这既适用于主智能体的 "直觉 "是正确的，代码可以工作的情况，也适用于主智能体是欺骗性的，试图在代码中嵌入错误的情况。

像这样的情况可能会招致（潜在的）对齐税，因为我们的模型 "知道 "正确的答案。如果我们不能相信模型的代码，而不得不运行可能效率低得多的代码，我们就会产生潜在的大量额外成本，而这些成本仅仅是由错误对齐引起的。即使我们的模型能够很好地完成这些任务，我们也可能很难用RRM来监督这些任务。在没有另一种对齐技术的情况下（我们目前还没有），我们不得不要求人类自己来完成这些任务。

目前还不清楚这在实践中到底有多重要。如果这是广泛存在的问题，我们应该能够用DC差距方法来测量一些。也许我们能够对更大的模型或更难的任务检测到这一点，但现在我们还没有这个问题足够干净的展示来研究。

最近的一篇论文表明，我们也许能够直接读出语言模型认为哪些语句是真的；如果这能复现，这也许是缓解这个问题的一个途径，如果它在实践中显示出来。此外，更好的可解释性工具可以对这个问题有很大帮助，因为它们可以让我们更直接地接触到一个模型的潜在知识。

即使这个问题在模型中很容易测量，而且不容易解决，这个问题是否很重要，将取决于它所产生的对齐税有多大。对于对齐研究自动化来说，即使是更大的税收也可能没有多大关系，我们也许能够利用自动化对齐研究找到ELK问题的规避方法。

总的来说，我对到目前为止的证据的解读是，对齐最困难的障碍不在这里。

对齐研究的自动化与ML研究的自动化太相似了

每天所做的大部分对齐工作只是普通的ML研究：我们看数据，写代码，训练模型，看图，等等。这意味着，要使大部分工作自动化，我们实际上需要建立自动化的通用ML研究人员。一旦这成为可能，智能爆炸就已经开始了，因为自动化的ML研究人员就可以致力于使人工智能系统更有能力，可能会迅速加速进展。这意味着我们可能需要非常迅速地在对齐上取得大量进展才能跟上。

这表明，自动化对齐研究的道路将难以驾驭，以便在能力上有区别地加速对齐。

回应

自动化的ML研究无论如何都会发生

似乎令人难以置信的是，ML研究人员不会在它变得可行的时候想到这样做。

我们正在使对齐和ML研究变得可替代。

现在，对齐研究主要受人才的限制。一旦我们达到相当程度的自动化，就可以更容易地在对齐和能力研究之间重新分配GPU。特别是，只要对齐技术不充分，就可以花更多的计算来改进它们。其他人因对齐技术不充分被迫停止做他们很兴奋的事情，这时申请额外的资源要容易得多。

一般来说，每个正在开发AGI的人都有动机使其与自己保持一致。这意味着他们会受到激励，将资源分配到一致性上，因此我们越容易做到这一点，他们就越有可能遵循这种激励。

我们可以专注于对对齐研究有不同帮助的任务

与ML研究相比，对齐研究更具有前范式性，需要理清其基本原理。那种帮助明确正确的路径、概念、形式和认知工具的任务对对齐更有帮助。

此外，在正确的问题上的工作可以获得如此多的好处。即使我们不把正在进行的任何ML研究和工程自动化，可能仍然可以通过改善优先级和找到更好的项目来获得对齐工作的效率的大幅提高。然而，这可能是工作的一部分，如果我们对模型的对齐没有信心的话，我不会愿意把它交给模型，所以这条路要谨慎对待。

一旦有了自动对齐的研究者，最重要和最紧迫的研究将是使它的继任者比它自己更加对齐。也需要利用它来投资更长期的研究，但是目前还没有一个清晰的图景来说明解决当前的理论对齐问题会如何帮助我们使下一代的ML模型更加对齐。尽管如此，自动对齐研究有可能帮助我们在什么是正确的长期理论研究问题上取得更多进展。

ML的进展主要由计算而非研究驱动

这种情绪已经被称为 "苦涩的教训"。过去的趋势表明，人工智能中的计算用量大约每3.4个月翻一番，而效率的提高每16个月才翻一番。粗略的说，计算用量主要由计算驱动，而效率则由研究驱动。这意味着计算量的增加在历史上主导了ML的进展。

但我不太看重这个论点，因为我不确定这个趋势是否会继续下去，而且总有可能发现一个 "Transformer杀手" 架构或类似的东西。

对齐研究只能由AI系统完成，而AI系统运行起来太危险了

对齐研究需要强有力的后果主义推理

这个反对意见通常是由MIRI和与MIRI相近的研究人员提出的。他们坚信，为了做好对齐研究，你需要善于 "后果推理"，即基于模型的规划，允许创造性地找出实现目标的路径。这是一种非常普遍的认知技术，因此我们应该期待智能AI能够使用它。更有甚者，如果你不使用这种推理，那么你就会错过它们将如何行为以及它们将如何努力寻求权力的一些重要方面。

回应

试图对比你聪明得多的系统的思维过程进行建模是相当无望的。然而，如果了解系统的激励机制（即奖励/损失功能），我们仍然可以对他们会试图做什么做出有意义的陈述。仅仅对激励机制进行推理并不能避免内在的错位（misalignment）问题（见下文），所以需要明确说明这些问题。

似乎很明显，一个更弱的系统可以帮助进行这种对齐的研究，如果我们是对的，将能够用相对平凡的AI系统来证明这一点，这些系统并没有遭受潜在的灾难性的错位问题。

一个假想的例子是一个相当安全的AI系统，它显然对对齐研究有用，它是一个定理证明引擎：给定一个正式的数学语句，它产生一个证明或反例。我们可以用一个证明检查器程序性地评估这个证明，所以可以确保只产生正确的证明（相对于永远无法证明为不矛盾的正式公理系统）。这样一个系统应该有意义地加速任何基于形式化数学的对接研究工作，它也可以帮助正式验证和发现计算机程序中的安全漏洞。

内部对齐问题

内部对齐

我的研究主要集中在 "外部 "对齐：为AI系统在给它们的任务上获得一个对齐的训练和评估目标。虽然大多数对齐研究者都认为这是我们需要搞好的一个关键问题，但一些对齐研究者认为这并不是最困难的部分。例如，可能是我们实际上卡在了内部错位问题上：模型学会了在内部对推断的目标执行优化算法，而推断的目标在测试时出现了误导。

回应

我们还没有看到在我们的语言模型中出现令人信服的内部错位的证明，尽管其他人已经证明了学习的目标在测试时可以误导。我们知道LLMs表现出语境中的学习，所以在某些时候它们会表现出语境中的RL，这是可信的。

我们可以用简单的技术来解决内部对齐问题，这是可信的。只要在测试分布上有一个我们可以信任的奖励函数，就可以在内部错位发生时发现它，并在新的分布上重新训练策略。换句话说，我们可以将内部对齐问题归约为为实现 "外部 "对齐已经需要解决的问题：

我们需要可靠的方法来评估策略正在做什么，这样才可以在测试时为外部策略提供训练信号。
我们需要检测分布的变化，这样我们才知道是否可以相信策略和奖励函数，或者需要调整它们。
在高风险的环境中，我们需要安全的探索，这样外部策略就能在更新内部RL问题的新（和未知）分布中避免不安全状态。

这些解决方案需要非常谨慎地应用。例如，当使用从人类反馈中训练出来的奖励模型时，我们需要在新分布上足够快地更新它。特别是，自动诱导的分布转移可能会使分布的变化比奖励模型的更新更快。

我们不知道泛化会有多好的效果

有些人提出了这样的担忧：我们不知道泛化在未来会有多大的作用。到目前为止，它的工作效果相当令人难以置信。例如，InstructGPT可以推广到遵循外语指令。然而，如果我们不能很好地理解奖励模型，那么依靠奖励模型来泛化到分布外的任务是有风险的。

回应

我同意这一点，但我认为这还不够深入。我们应该非常努力地避免依赖泛化，除非有比 "它似乎非常好用" 更好的理由。问题是，一旦我们主要依靠泛化，而不是评估系统在做什么，我们基本上就是在 "盲目飞行"：因为没有评估，所以没有办法知道泛化是否仍然有效，可能直到为时已晚。

使用类似于RRM的设置，我希望我们能得到AI系统，在我们仍然可以递归地评估一切的时候，能够完成相当困难的任务。此外，从长远来看，我们不应该做训练/测试时间的区分，而是在部署后继续评估和监督系统。换句话说。我想确保高能力的AI系统总是有一些被监督的概率。

这并不意味着泛化不会帮助我们。理想情况下，可以利用泛化来使昂贵的评估变得更便宜。可以说，奖励模型已经实现了这个作用：在RL训练期间，我们不需为每个回合提供比较，而只为其中的一个子集提供比较，并让模型对其余的回合进行推广。但这是i.i.d.分布内的泛化，因为我们从所有的任务中随机抽取监督的任务。

当使用人工智能辅助的人类反馈时，我们希望在辅助任务中利用大量的泛化（例如对彼此或从顶级任务）。为了确定模型在困难的任务上究竟有多大的一致性，我们不应该排斥依靠泛化性，但我们希望能够利用递归的人类判断来达到基础真相（例如，人类分别评估每个协助任务，然后评估有协助的更高层次的任务，以此类推）。

特别感谢Leo Gao、William Saunders、Ajeya Cotra、Paul Christiano和Jeff Wu对这个话题的大量讨论和反馈，以及Daniel Kokotajlo、Holden Karnofsky、Daniel Mossing和Carroll Wainwright对这个帖子的反馈。

标签：