欢迎光临散文网 会员登陆 & 注册

对齐问题是什么?

2023-02-22 15:19 作者:星群译制组  | 我要投稿

我试图澄清一个令人困惑的话题

作者:Jan Leike

时间:2022年3月29日


从很高的角度看,建立高性能的AI系统需要两个要素:

  • 能力。AI系统可以完成预定的任务。

  • 对齐。AI系统尽其所能地完成预定的任务。

因此,如果系统没有完成预期的任务,那么这总是由于能力问题、对齐问题,或者两者都有。


通常我们谈论的是与人类意图的一致性。在这种情况下,预期任务就是人类希望系统做的任何事情。


举例

我们都熟悉无能力的系统;事实上,到目前为止,深度学习的大部分问题都是能力问题,因为技术还很不成熟。


我们也都熟悉对齐问题,尽管并不总是这样称呼它们。未对齐的系统是那些 "不在你的团队里玩" 的系统。他们可能会和你对着干,但大多数时候他们不是和你在一起,也不是和你作对,他们只是在玩不同的游戏。比如说。

  • 一家公司向你发送促销邮件,而你从来没有注册过,也不想要。

  • 有人在你面前插队

  • 你的电脑没有保存你想保存的文件就重新启动了

  • 在你看到你想看的音乐视频之前,你必须先看一个广告

  • ...

在每一种情况下,我们都可以确信问题不是能力问题:显然,这里的人类或系统有能力做你想让他们做的事情,只是他们决定不做。


分离对齐和能力问题

在实践中,要把对齐问题和能力问题分开是非常困难的:如果一个系统不执行任务,我们需要证明它可以做这个任务,以表明它是未对齐的。


例如,如果一个客户服务代表没有回答我的问题,这是因为他们不知道答案(能力问题),还是因为他们被雇主指示不要告诉我答案(对齐问题)?如果不在客户服务中心打探消息,我真的很难分辨。


今天的对齐问题

今天,人工智能中最明显的未对齐问题是由大型语言模型表现出来的:今天的大型语言模型有很多方式不按照我们的意图行事。我们可以将其分为显性意图和隐性意图:显性意图可以由自然语言指令指定("为这篇文章写个摘要"/"列出关于X的一些想法"),而隐性意图通常很多,没有明确说明:不要使用有毒的语言,不要给出有害的建议,不要捏造东西,等等。


今天,通过用特别制作的数据集对模型进行微调,可以在这些问题上取得很多进展,例如参见我们在InstructGPT上的工作。最终,这将是对齐研究的很好的试验场:能不能训练这些模型,让它们永远不做明显的坏事?如果连今天的模型都不能做到很好的对齐,这就意味着我们的对齐方法有很大的根本性缺陷。


对齐的困难问题

然而,今天的问题与在拥有比我们更聪明的AI系统时最终必须面对的问题有很大不同。这个 "对齐的困难问题" 是我最感兴趣的版本。

我们如何在人类难以评估的任务上对齐系统?

随着人工智能的不断进步,会得到越来越聪明的模型,可以应用于越来越难的任务。然而,AI的进步并没有改变人类理解的任务范围。随着任务越来越难,人类也越来越难评估一个特定的行为是否理解了他们的意图。


对于难以评估的任务,许多直接的解决方案,如来自人类反馈的RL并不适用。人类无法检查系统所做的一切,因为系统可能试图以我们难以察觉的方式欺骗我们。


此外,对齐的困难问题是赌注最大的版本。一旦知道如何建立能够比我们更好地完成困难任务的AI系统,就会有很大的经济压力,让它们负责各种有经济价值的任务。但是,如果它们未被对齐,它们实际上不会按照我们的意图执行这些任务,因此我们会面临意想不到的后果。


感谢John Schulman、Steven Bills和Dan Mossing对这篇文章的反馈。部分内容受到与Richard Ngo和Allan Dafoe谈话的启发。


对齐问题是什么?的评论 (共 条)

分享到微博请遵守国家法律