欢迎光临散文网 会员登陆 & 注册

通过奖励建模实现可扩展的智能体对齐

2023-02-21 16:56 作者:星群译制组  | 我要投稿

作者:Jan Leike

时间:2018年11月21日

https://deepmindsafetyresearch.medium.com/scalable-agent-alignment-via-reward-modeling-bf4ab06dfd84


这篇文章概述了我们的新论文,勾勒了解决智能体对齐问题的研究方向。我们的方法依赖于奖励建模的递归应用,以符合用户意图的方式解决复杂的现实世界问题。

https://arxiv.org/abs/1811.07871


近年来,强化学习在复杂的游戏环境中产生了令人印象深刻的表现,从雅达利、围棋、国际象棋到《Dota2》和《星际争霸II》,AI智能体在越来越复杂的领域迅速超越了人类的水平。游戏是开发和测试机器学习算法的理想平台。游戏任务带来的挑战需要一系列的认知能力来完成,反映了解决现实世界问题所需的技能。机器学习研究人员可以在云端并行运行成千上万的模拟实验,产生大量的训练数据来满足系统学习的需求。


其中的关键是,游戏往往有明确的目标,以及分数来近似实现该目标的进展。这个分数为强化学习智能体提供了有用的奖励信号,并使我们能够迅速获得反馈,判断哪些算法和架构的选择效果最好。


智能体对齐问题

最终,人工智能进步的目标是使我们能够解决现实世界中日益复杂的挑战,从而造福人类。但现实世界并没有内置的奖励功能。这带来了一些挑战,因为这些任务的表现并不容易定义。我们需要一个好的方法来提供反馈,并使人工智能体可靠地理解我们想要的东西,以帮助我们实现它。换句话说,我们想用人类的反馈来训练人工智能系统,使系统的行为与我们的意图相一致。为了这个目的,我们将智能体的对齐问题定义如下。


我们如何才能创造出行为符合用户意图的智能体?


对齐问题可以在强化学习的框架内进行,只是智能体不接受数字奖励信号,而是通过互动协议与用户互动,让用户向代理传达他们的意图。这个协议可以有多种形式:例如,用户可以提供示范、偏好、最佳行动,或传达奖励函数等。智能体对齐问题的解决方案是按照用户意图行事的策略。


通过这篇新论文,我们概述了正面解决智能体对齐问题的研究方向。在我们早期对AI安全问题的分类以及对AI安全问题的大量阐述的基础上,我们描绘了一幅连贯的图画,说明这些领域的进展如何能够产生对智能体对齐问题的解决方案。这为构建系统打开了大门,这些系统可以更好地理解如何与用户互动,从他们的反馈中学习,并预测他们的偏好--无论是在近期的狭窄、简单的领域,还是在长期的更复杂、抽象的领域,都需要超越人类水平的理解。


通过奖励建模实现对齐

我们研究方向的主旨是基于奖励模型:通过用户的反馈来训练奖励模型,以捕捉他们的意图。同时,用强化学习来训练策略,使奖励模型的奖励最大化。换句话说,我们将学习做什么(奖励模型)与学习如何做(策略)分开。

奖励模型的示意图:从用户的反馈中训练出奖励模型来捕捉他们的意图;这个奖励模型为用强化学习训练的智能体提供奖励。


例如,在以前的工作中,我们根据用户的喜好教智能体做后空翻,用目标状态的例子把物体排列成不同形状,根据用户的喜好和专家的示范玩雅达利游戏。在未来,我们希望设计出能够学习适应用户提供反馈方式(例如,使用自然语言)的算法。


扩大规模

从长远来看,我们希望将奖励建模扩展到那些人类无法直接评估的复杂领域。要做到这一点,我们需要提高用户评估结果的能力。我们讨论了奖励建模如何可以递归应用:可以使用奖励建模来训练智能体,以协助用户进行评估过程本身。如果评估比行为更容易,这可以让我们从更简单的任务引导到越来越普遍和更复杂的任务。这可以被认为是迭代放大(iterated amplification)的一个实例。

递归奖励模型的示意图:用递归奖励模型训练的代理(右边的小圆圈)协助用户对当前被训练的智能体(大圆圈)产生的结果进行评估。


例如,设想我们要训练智能体来设计计算机芯片。为了评估提议的芯片设计,用奖励模型训练其他的 "助手" 智能体,在模拟中对芯片的性能进行基准测试,计算散热,估计芯片的寿命,试图找到安全漏洞,等等。总的来说,这些辅助智能体的输出使用户能够通过协助评估拟议的芯片设计来训练芯片设计者智能体。虽然每一个辅助智能体都要解决非常困难的任务,这些任务对于今天的ML系统来说是遥不可及的,但这些任务首先要比设计芯片更容易完成:要设计计算机芯片,你必须了解这些评估任务中的每一个,但反过来就不是这样。在这个意义上,递归奖励建模可以使我们站在智能体 "脚手架" 上解决越来越难的任务,同时与用户的意图保持一致。


研究挑战

为了将奖励模型扩展到如此复杂的问题上,有几个挑战需要解决。下面列出了其中的五个挑战,并在论文中对其进行了更深入的描述,以及解决这些问题的方法。

我们预期在扩展奖励模型时遇到的挑战(左)和解决这些挑战的有希望的方法(右)。


这把我们带到了智能体对齐的最后一个重要组成部分:当在现实世界中部署智能体时,我们需要向用户提供证据,证明智能体确实是充分对齐的。本文讨论了五个不同的研究途径,可以帮助增加对智能体的信任:设计选择、测试、可解释性、形式化验证和理论保证。一个雄心勃勃的目标是制作安全证书:可以用来证明技术开发是负责任的人工制品,并使用户有信心依赖经过训练的智能体。


展望

虽然我们相信递归奖励建模是一个非常有前途的训练对齐智能体的方向,但我们目前不知道它的扩展性有多好(需要更多的研究!)。不过值得庆幸的是,智能体对齐还有几个其他的研究方向正在同时向前发展:

  • 模仿学习 (Imitation learning)

  • 短视强化学习(Myopic reinforcement learning)

  • 逆强化学习(Inverse reinforcement learning)

  • 合作式逆强化学习(Cooperative inverse reinforcement learning)

  • 迭代扩增(Iterated amplification) 

  • 通过争论学习(Debate)

  • 智能体基础组件设计(Agent foundations)

本文进一步探讨了这些方向的异同。


主动开展计算机视觉系统对于对抗性输入的鲁棒性研究,对当今的ML应用至关重要。类似的,智能体对齐研究有望成为机器学习系统在复杂现实世界进行部署的关键。我们有理由感到乐观:虽然我们预计在扩展奖励建模时将面临挑战,但这些挑战是我们可以取得进展的具体的技术性研究问题。从这个意义上说,这研究方向今天已经准备就绪,可以进行深度强化学习智能体的实证研究了。


在这些研究问题上取得进展是DeepMind持续工作的主题。如果你是一名研究员、工程师或有兴趣加入我们的优秀通才,请查看我们的空缺职位,并在申请时注明你对对齐研究的兴趣。


感谢David Krueger、Tom Everitt、Miljan Martic、Vishal Maini、Shane Legg,以及DeepMind、OpenAI和人类未来研究所的许多人对这项工作的贡献。


通过奖励建模实现可扩展的智能体对齐的评论 (共 条)

分享到微博请遵守国家法律