欢迎光临散文网 会员登陆 & 注册

对齐问题的解决方案可能是什么样子的?

2023-03-06 15:09 作者:星群译制组  | 我要投稿

作者:Jan Leike

时间:2022年9月27日

对难以捉摸的一劳永逸解决方案的高层次观点

https://aligned.substack.com/p/alignment-solution


我目前赞成的对齐研究方法是建立比我们更擅长做对齐研究的系统。但这个系统究竟会做什么呢?


明显的答案是 "我们现在正在做的事情"。这并不令人满意,因为我们实际上并没有试图解决整个对齐问题--我们只是试图建立一个更好的对齐研究机构。在某些时候,我们需要将注意力转移到对所有未来人工智能系统进行对齐的资助目标上。


确保所有未来的AI系统都是对齐的,一般有两条路径。

  • (A) 对齐永远领先于AI的能力。对齐研究的进展足够快,以确保最有能力的AI系统总是充分地对齐,并且永远不会压倒我们。为了在这条道路上取得成功,需要能够放慢能力研究的速度(我预计这是很困难的),以便对齐研究能够跟上,或者能够在自动对齐研究上花费足够的计算量,以得出足以满足下一代AI系统的技术。

  • (B) 找到一个一劳永逸的解决方案。这是对对齐问题的全面解决方案,可以无限地扩展。一旦有了这个解决方案,"我们所需要做的" 就是确保它在各地得到实施。


默认情况下,我们将继续推动A,直到我们发现B。但我们目前不知道B(甚至A)是否可能。尽管如此,我还是想试着给出一个B可能是什么样子的高层次的草图。它有4个部分。

  1. 一个正式的对齐理论

  2. 一个适当的过程来激发价值

  3. 训练AI系统的技术,使它们充分对齐

  4. 最先进的AI系统的形式化验证工具

下面的内容主要是问题和高层次的期望,而不是答案和解决方案。


1. 对齐的形式化理论

我们开发了一个形式化的对齐理论,以捕捉系统与主体(人类用户)对齐的含义。这个形式化的理论需要以数学为基础,并允许我们对任何系统做出精确的陈述,要么是真的,要么是假的。它没有留下任何含糊不清的空间,并且可以由定理检验器自动检查。


我们现在还没有这样的东西,我也不确定如何去做。关于这个形式理论的一些松散的要求。

  • 它需要给出一个研究人员普遍认同的关于对齐问题的精确定义。

  • 它需要抓住对齐问题的关键困难,即如何处理主体无法理解的任务。

  • 它需要能够处理人类表达其偏好时出现的不一致和偏见。

  • 它需要可以扩展到多个主体和多个智能体。

  • 它需要回答或规避复杂系统中哪些部分构成智能体的问题。

  • 它可能需要能够处理逻辑上的不确定性、嵌入式机构、内部未对齐和其他奇怪的问题。

  • 它需要捕捉AI系统的鲁棒性,并处理概率性的输入分布。

最接近的现有工作可能是合作逆强化学习,但不幸的是,这项工作没有通过上述大部分要点。


2. 激发价值的适当过程

在基于人类偏好训练AI系统时,我们总是回到这样一个问题:"谁的偏好?" 现在我们使用的过程大致如下:我们在互联网上雇了一群人,请他们对模型的反应进行排名。对于敏感的话题(例如有毒的反应),我们使用由标注者提供的人口统计信息来重新权衡标签。


显然,这是非常不令人满意的,只是比我们能做的最懒惰的事情稍微好一点。真正可接受的过程会是什么样子呢?一些需要考虑的问题:

  • 包容性。这个过程需要对整个人类具有包容性。人类是非常多样化的,不同的群体需要能够为这个过程提供有意义的投入。它必须跨越文化、语言、收入水平、年龄等。它不能无视对少数人非常重要的少数人意见。

  • 公平性。这个过程必须是公平的,它不能偏袒精英或个人而忽视其他人。

  • 代表性。这个过程需要以一种让每个人都有平等的权力来塑造结果的方式来汇总价值,并决定如何交换相互冲突的价值。

  • 动机的对齐。这个过程需要在任何科技公司之外进行。每当公司负责这个过程时,总是有风险,即公司的动机可能会干扰这个过程。如果这个过程被安置在任何国家,也是如此。

  • 合法性。这个过程需要在现有的规则和机构内运作,而不是绕过它们。

  • 适应性:人类的价值观随时间而改变。锁定人类21世纪初的价值观并阻止道德进步很可能是灾难性的,就像我们现在发现几个世纪前普遍存在的一些人类价值观和规范是可鄙的(如奴隶制)。

  • 透明度。任何人都应该能够看到这个过程,看到它是如何运作的。

  • 简单性。过程应该简单到大多数人都能很好地理解它。

  • 实用性。这个过程需要足够实用,在人工智能快速发展的情况下,它不需要花几十年的时间来实施。

也许对这个过程的一个很好的测试是通过无知的面纱:如果不知道我们在地球上出生的地点和时间,我们都能同意什么过程?


在理论上完全满足所有这些要求可能是不可能的,类似于阿罗的社会选择理论的不可能结果。然而,这并不意味着它在实践中不能发挥作用:尽管阿罗的不可能结果,投票仍然是有意义的。


要实现理想化过程的结果,有一条可能的途径,就是建立一个有足够能力的、统一的AI系统,让它来计算出结果。然而,我预计大多数人不会把这种替代过程视为合法。


因此,与来自人类每个子群体的人类交谈将是这种过程的关键组成部分。例如,我们可以制作一个聊天机器人,用人们的母语与他们交谈,了解他们的价值观,然后把它们写下来。在理论上,互联网提供了这样的基础设施,但在实践中,人类的大部分地区都与互联网隔绝。


3. 训练AI系统的技术,使它们充分对齐

这就是我们今天工作的主要部分。只是标准要低得多:只想建立一个充分对齐的系统,以便可以用它来做更多的对齐研究,而不会造成伤害或攫取权力。我们甚至不知道一个系统充分对齐的确切含义是什么。


现在,我们正在迭代地接近这一部分,并基于一些概念上的动机(例如 "评估比生成更容易")而不是任何正式的理论。相当不令人满意,但我们仍在取得真正的进展。


如何长期做下去,希望能从我们对第一部分的解决方案中得到启发:一旦有了解决对齐问题的正式概念,在理论上,我们可以自动搜索算法空间,寻找一个能根据这个定义取得进展的算法。此外,有了自动对齐研究者,我们不需要把搜索空间限制在人类可以设计的对齐技术上。


4. 尖端AI系统的形式验证工具

鉴于我们根据第3部分训练的系统和根据第2部分引出的一组数值,我们可以使用第1部分的理论来表达数学中的形式定理 "这个系统是充分对齐的"。现在 "我们需要做的" 就是证明这个定理。由于一些原因,这是令人难以置信的困难。


该定理可能大得惊人。如果我们想证明一个GPT-3大小的1750亿个参数的模型,我们的定理的大小将至少是175GB。输入和输出空间也大得令人难以置信。对于GPT-3来说,可能的输入是~10¹⁰⁰。


要验证的系统规范本身是模糊的(第二部分的值)。因此,需要相对于一个学习到的规范(另一个神经网络?)进行验证,而这个规范本身是有缺陷的。我们如何确保这实际上解决了问题,甚至是取得了进展?


我们的输入是分布式的,但验证需要覆盖所有的边缘情况。大部分的输入空间都是随机噪音。我们如何处理这个问题?


今天,我们根本不知道如何在这种规模下进行形式化验证:最先进的方法是验证MNIST和CIFAR图像分类器的局部对抗性鲁棒性(不可察觉的扰动),相对于最大的语言模型来说,这些网络是比较小的。近年来,在可扩展的验证方面取得了很好的进展,但是对于我们今天拥有的最大的神经网络来说,我们离实用的东西还很远。


在实践中,这种形式上的验证可能最终看起来更像是可解释性的:我们实际证明定理的方式是获得对模型中每个神经元的充分理解,然后利用这些知识来写一个更紧凑的证明。


展望

这里列出的部分是非常高层次的,目前还不清楚如何在这些方面取得实际进展。最难的部分可能是第1部分或第4部分。第4部分肯定非常难,但我对第1部分的难度的不确定性跨越了很多数量级。我的理解是,大多数声称在对齐问题上没有取得有意义的进展的人,大多指的是在第一部分上缺乏进展。


第1、2、4部分的很多工作,以及最终的第3部分的工作看起来将与我们今天所做的工作非常不同,而且我预计只有使用大量的自动化才能做到这一点。但如果成功了,我们将真正拥有可证明的有益的人工智能。


感谢Hendrik Kirchner、William Saunders、Jeff Wu、Leo Gao和John Schulman的反馈,感谢Andrew Trask的讨论,促使我们写下这篇文章。


对齐问题的解决方案可能是什么样子的?的评论 (共 条)

分享到微博请遵守国家法律