欢迎光临散文网 会员登陆 & 注册

对齐的最小可行产品

2023-02-22 15:32 作者:星群译制组  | 我要投稿

对齐问题的引导性解决方案

作者:Jan Leike

时间:2022年3月29日


【摘要】我目前赞成的解决对齐问题的方法:使用充分对齐的AI系统进行自动化对齐研究。它不需要人类自己解决所有的对齐问题,而且最终可以帮助引导出更好的对齐解决方案。


所有问题的空间确实很大,而人类目前能够解决的问题的空间相比之下是相当小的。这意味着,今天我们只是没有能力解决大多数问题。这是研究AI的一个重要动机:AI的进步将大大扩展人类能够解决的问题的空间。


也许对齐问题的一劳永逸的解决方案就位于人类可以解决的问题的空间中。但也许不是。通过尝试解决整个问题,我们可能试图得到一些不在我们能力范围内的东西。相反,我们可以追求一个不那么雄心勃勃的目标,但最终仍然可以引导我们找到一个解决方案,一个最小可行的对齐产品(MVP)。


建立一个充分对齐的AI系统,加速对齐研究,以对齐能力更强的AI系统


这将有什么帮助?

虽然我们显然需要比现在更有能力的AI系统来做良好的对齐研究,但实际上并不需要一个比最好的人类专家更聪明的系统。与人类相比,机器有一堆优势:它们的工作速度比人类快得多,而且可以并行地尝试更多的东西。此外,评估往往比生成更容易。我发现评估一个对齐的想法是否有前途要比想出一个好的想法容易得多。从一个未来的语言模型中抽出的100个对齐想法中,最好的是什么样子的?那100万个中最好的呢?


现在,对齐研究的进展主要受制于人才:我们有很多感到兴奋的想法和项目,但却没有人能够推进它们。将对齐研究的越来越多的部分自动化,将解开人才的瓶颈,因为它将使组织将计算(因此也是资本)转化为对齐进展。


从本质上讲,一个对齐的MVP可以让我们引导所有其他的对齐问题的解决方案,并最终让我们达到一个完整的解决方案(如果它存在)。最终,不应该关心我们是如何达成对齐问题的解决方案的,无论是手动的还是自动化的。


这有什么不同?

这个目标没有其他一些对齐研究议程那么雄心勃勃,因为它并不要求我们对试图对齐人工智能系统时出现的所有问题都有解决方案,包括远期的问题。不要误会我的意思,这仍然是一个非常雄心勃勃的项目。


重要的是,这种方法并不假设人类(本身)会有任何关于对齐的根本性的新想法。如果人类真的能够识别(可能是在可信赖的人工智能协助下)一个好的对齐建议,那么现有的技术,如从人类反馈中强化学习和递归奖励建模等想法,可能足以使这样一个最小的可行产品充分对齐,给定足够能力的AI系统。此外,反过来也是如此:如果人类没有能力评估对齐建议的质量(即使有人工智能的帮助),那么这也会阻碍人类提出的对齐建议的采用。


此外,一个对齐的MVP并不要求完全对齐一个一般能力的AI系统。对对齐研究很有帮助,不需要与现实世界或开放的互联网互动。它也不需要模型告诉我们它对某一主题的所有了解,只要它有时告诉我们有用的信息(它不需要完全对齐)。


这种方法的缺点

这种方法的主要缺点之一是,在设计空间中靠近对齐的MVP是一个系统,它加速AI的进展比对齐的进展更快,这是合理的。在实践中,大部分花在实证对齐研究上的时间与花在ML研究上的时间相似。这可能意味着,当我们的系统对对齐研究做出重大贡献时,ML研究本身已经开始自动化了。在我看来,无论如何,未来的ML研究最终会是这样的,而这主要是由模型的能力所限制的。如果这是真的,那么在对齐MVP上的工作就不会影响AI的整体进展速度。


我们从哪里开始?

我们在OpenAI的对齐团队的日常工作涉及各种任务,这些任务在不同程度上已经成熟,可以实现自动化。例如,最近在自动化编写代码方面有了很大的进展,我们可以利用这些能力来做一个对齐研究助手。一个有足够能力的生成式语言模型,在对齐研究和从网络上刮来的讨论中进行训练,也应该有助于讨论和产生关于对齐的想法。


不用说,今天的AI还远远不能比人类更好地进行对齐研究。尽管如此,我还是把它理解为我们今天取得迭代进展的一般策略,它最终可以带来所有未来对齐问题的解决方案。


感谢William Saunders、Beth Barnes、Jeff Wu、Leo Gao、Dan Mossing和Daniel Ziegler对本文和/或本文章早期版本的反馈。


对齐的最小可行产品的评论 (共 条)

分享到微博请遵守国家法律