ChatGPT激起的火种,正在中国科技公司急速蔓延。国内的各个大厂内,算法工程师们纷纷开启冲刺倒计时,迎来一个个不眠夜。而在创投圈的饭桌上,到处都能听到「誓要做中国第一个ALL in GPT的VC」的声音。兴奋者有之,观望者有之,唱衰者有之。所有人都在翘首以盼:谁能成为中国的第一个ChatGPT?而如今,这股ChatGPT热潮中,忽然涌现了一股清流——小冰链。小冰链给了我们这样一个答案:除了做中国版ChatGPT,还有没有别的选项?
根据官方内测页面的介绍,此次demo展示了小冰链(X-Chain of Thought & Action)的新特性,也就是说,AI Being不再只是单纯地给出回复,而是将她的思考过程完整透明地呈现在你面前,由此揭开大模型的黑盒。更重要的是,她能真正实施某种行动(Action),例如:在你提出问题后,她经过思考,发现自己得去搜索一下,或是实时编写一段代码并真的加以运行,或是自主决定她应当控制物理世界的一系列设备或交通工具,来更好地满足你的需求。
小冰链并非小冰在大模型时代的唯一创新。自2014年以来,小冰始终伴随技术迭代而成长,经历了检索模型、生成模型、大模型和X-CoTA等多个周期。其中在大模型领域,自2019年至今,小冰已经形成了不同规模的模型训练和调优,并在安全性评估之后依次放出。小冰链只是其中之一。尽管如此,在小冰看来,大模型的安全性和伦理仍是至关重要的考量因素。因此,尽管国内市场非常火爆,但小冰团队不会为了秀肌肉而贸然放出各种不安全的产品,这次的小冰链,是唯一的一次例外。从CoT到CoTA技术方面,小冰链——X-CoTA的实现,少不了作为基础的「思维链」(Chain of Thought, CoT)。简单来说:1. CoT可以让语言模型将复杂的多步骤问题分解成一连串的步骤2. CoT可以让开发者看到模型的推理过程,便于确定错误并进行修复3. CoT可以解决数学应用以及常识性推理问题在此之前,标准的提示会在模型预测答案之前,给出输入-输出对的例子(格式化为问题和答案)。而在思维链提示中,模型会得到一个问题推理的过程。也就是说,在处理多步骤推理问题时,模型产生的思维链将模仿直观的思维过程。
研究人员发现,只需要在prompt中加入「Let's think step by step」就能让GPT-3的推理性能大幅提升,比如在MultiArith中就将推理准确率从之前的17.7%一下提升到了78.7%。下面的例子取自「Scaling Instruction-Finetuned Language Models」。其中,橙色突出了指令,粉色显示了输入和输出,蓝色是CoT推理。
论文的结果显示,采用CoT微调的模型,在涉及常识、算术和符号推理的任务中表现得更好。不难看出,思维链提示(chain of thought prompting)可以让模型更好地理解自然语言提示和示例,从而能够执行需要复杂推理的任务,并且显著提高模型处理新任务的能力。除此之外,CoT微调在敏感话题方面也非常有效(有时比RLHF做得更好),尤其是可以避免模型摆烂——「对不起,我无法回答」。