欢迎光临散文网 会员登陆 & 注册

区分三种对齐税

2023-02-22 16:58 作者:星群译制组  | 我要投稿

不同对齐税的影响取决于环境

作者:Jan Leike

时间:202212月20日

 

在一般意义上,对齐税是指在对齐AI系统的过程中产生的额外成本。让我们来区分三种不同类型的对齐税:

  1. 性能税。与未对齐的基线相比,通过对齐造成的性能退步。

  2. 开发税。为调整模型而产生的努力或费用:研究人员的时间、计算成本、人类反馈的补偿,等等。

  3. 部署时间税。从一个预训练的模型产生一个充分对齐的模型所需的壁钟时间1。

对齐税是不想要的,因为它阻碍了对齐技术的采用。在一个高度竞争的市场中,如果没有普遍的对齐标准的执行,公司就无法支付大量的对齐税。然而,即使在没有任何竞争的情况下,也有动力反对采用高税率的对齐技术:性能较差的模型对客户的价值较低,高额的开发税抑制了投资,如果你的客户愿意付费使用未对齐的模型,那么每延迟一天就会产生商业机会成本。因此,我们希望有对齐技术,其中的税收尽可能的低。


让我们依次讨论这些税。


三种对齐税

性能税

如果未对齐的预训练模型在能力X上的性能为Z,而更对齐的模型在能力X上的性能为Z'<Z,那么我们就说在能力X上有一个性能税。


在过去,这种性能税是通过模型在微调后在标准基准上的得分减少多少来衡量的。在训练InstructGPT的第一个版本时,OpenAI观察到在回答问题和翻译的一些标准基准上出现了性能退步。通过将预训练数据混合到微调过程中,这些问题大多得到了缓解,但并未完全消除。Anthropic、DeepMind和谷歌也研究了对齐税,作为他们对齐工作的一部分,有时对齐微调甚至可以提高几个基准的性能,对应于负性能税。


然而,可以用一种更自然的方式来量化这种税,让我们把这种税更直接地转化为货币术语,测量在推理时需要花费多少额外的计算来补偿性能回归。如果更对齐的模型需要多花T%的推理时间计算来从性能Z'回到能力X的性能Z,那么我们说有一个T%的对齐税。例如,如果我们总是需要运行best-of-2,这相当于100%的对齐税。如果我们需要在10%的任务中运行best-of-4,这相当于4*10%=40%的对齐税。


开发税

今天的开发税包括建立RLHF代码库、雇用和管理人类标签员、计算和研究人员的努力。我(相当粗略)的猜测是,InstructGPT的总开发成本大概相当于GPT-3开发成本的5-20%。然而,大部分的开发成本与模型的大小无关,同样地,改进一个10倍小的或更大的语言模型的对齐方式也会花费类似的努力。事实上,在现实中可能是相反的情况:更大的语言模型的更高的开发成本证明了在使其更对齐上花更大的努(例如更大的团队做这个工作)是正当的。


我们也可以把对齐研究社区的一般努力看作是AGI开发税的一部分。如果存在一个可以无限扩展的对齐问题的解决方案,那么寻找这个解决方案的总成本将是一次性的开发成本。然而,这个解决方案并不是让今天的AI更加对齐所需要的,因此不应该占用这些工作的预算。


部署时间税

对于部署时间税,与性能税的考虑相似。今天,由InstructGPT、ChatGPT、Sparrow和Anthropic的助手所做的对齐训练需要几个连续的步骤:收集提示、收集示范、监督微调、收集比较、训练奖励模型、RL微调和人类评价。这些步骤中的每一步通常都需要一些迭代和调试,这很容易增加整个时间线。对于GPT-3,这个管道花费了我们大约9个月的时间,而今天我们的基础设施足以在3个月内产生相当好的模型,因为可以重用大量现有数据和代码。


这种计算方法有一个重要的缺陷:在某些时候,更有能力的模型不能用同样的技术来对齐。因此,简单地优们现有的训练循环并不能帮助减少未来模型的部署时间。特别是,一旦模型的能力足以完成人类难以评估的艰巨任务,我们就会希望使用AI辅助评估来训练它们。然而,做好这项工作的基础设施仍在开发之中。


这些税收什么时候重要?

竞争性市场要求低对齐税

有几家公司在大型语言模型上进行竞争。在一个公平的竞争环境中,每个人都会有大致相同能力的预训练语言模型。如果你训练了更多的对齐模型,但它们在能力X上承担了性能税,那么关心能力X的客户就会被激励转向竞争对手,因为他们部署了能力相似但对齐度较低的模型,在能力X上表现更好,因为他们不受这种税的影响。因此,性能税会导致对齐的模型失去市场份额,从而阻碍了对齐技术的采用。


例如,OpenAI的DALL-E 2模型在推出时采用了更保守的安全保障措施,这使得它们在一些合法的用例中更难使用。这是一种性能税,因为该模型在一些用例上的表现实际上比没有这些保障措施时更差。DALL-E 2的竞争模型Stable Diffusion和Midjourney在推出时采用了较少的安全保障措施,这些模型得到了更广泛的采用(尽管这只是相关的,因为其他几个方面也不同)。


在这种竞争性市场中,即使是10%的性能税也可能令人望而却步,因为从长远来看,比你的竞争对手贵10%可能意味着失去很多客户。API模型的转换成本特别低,所以这类产品对性能税非常敏感。


在实践中,语言模型也有与模型的 "可用性" 相对应的性能税,而这些性能税并没有被今天的标准基准评估所很好地反映出来。相对于大多数用例的预训练模型来说,这些性能税是相当明显的:预训练的语言模型很难驾驭,因为它们并没有试图帮助你。与类似规模的基础模型相比,OpenAI的大多数客户更喜欢InstructGPT,即使我们在基础模型上花费了大量的推理时间计算,他们也可能会喜欢。例如,在人类对OpenAI的Playground的提示的评估中,即使是小得多的1.3b参数的InstructGPT,平均来说也明显优于少样本学习的175b的GPT-3基础模型。然而,这个统计没有考虑到任何内容限制和其他安全保障措施,这些可能会产生额外的性能税(例如,如果模型拒绝合法的用例)。


性能税在自动对齐研究中优先级较低

虽然对齐的AGI可能要在某些市场上竞争,但在对齐问题上取得进展不应该是一种竞争。我们都从AI与人类更加一致中受益,因此应该自由地分享对齐研究的进展。


当使用人工智能系统进行自动对齐研究时,这些AI系统也将受到对齐税的影响。然而,在这种情况下,我们的AI系统并不直接与其他AI系统在市场上竞争,因此性能税不会那么重要。然而,部署时间税仍然很重要:如果对齐进度跟不上AI的能力,我们就不得不放慢或暂停AI的进展,这将是非常难以协调的问题。


自动对齐研究可以持续的性能税在很大程度上取决于系统需要做的工作总量。在这些情况下,开发税将是主导因素。考虑一下两种可能的情况。

  1. 需要为每一代新的AI系统做固定数量的对齐工作,例如从GPT-2到GPT-3时。在这种情况下,所能承受的对齐税取决于需要做多少工作。例如,如果自动对齐工作的 "税前" 计算成本是新AI系统开发成本的1%,那么1000%的税只使总对齐成本达到AI系统整体成本的11%。然而,这只有在下一代的(对象层面)性能税不比这一代的性能税高很多的情况下才行得通,否则性能税最终会一代比一代复杂。

  2. 需要投入固定数量的对齐工作来发现对齐问题的不确定的可扩展的解决方案。在这种情况下,关键问题不是发现这个解决方案所支付的性能税,而只是发现这个解决方案的税后美元总成本X。如果人类可以在太晚之前筹集到Y美元投资于发现不确定可扩展的解决方案,那么重要的是Y>X。如果X较低(例如因为税收较低),更有可能出现这种情况。然而,除非税前成本实际上非常接近于Y,否则对齐税对结果并不那么重要;这主要是一种成本节约的做法。

因此,根据数字的变化,在这种情况下,10倍甚至100倍的性能税都可以接受。


总结

这篇文章讨论了三种主要的对齐税:性能、开发和部署时间税。随着部署语言模型的商业竞争的升温,减少对齐税的压力会越来越大。然而,对于自动化对齐研究来说,性能税并不重要,因为主要目标不是在市场上竞争,而是在对齐研究上取得进展。对于这一行的研究,我们的重点应该是尽量减少开发和部署时间税,所以需要尽早开始这项工作。


感谢Jeff Wu、Richard Ngo和Daniel Kokotajlo,以及Reimar Leike对本帖的反馈。



区分三种对齐税的评论 (共 条)

分享到微博请遵守国家法律