欢迎光临散文网 会员登陆 & 注册

【花师小哲】当代炼金术(神经网络)前沿(26)——语言模型学会了自我反思?

2023-03-27 15:42 作者:花师小哲-中二  | 我要投稿

OK,今天我们来看这篇论文:

内容不会很多,主要是这篇论文写的也不复杂,就把思想讲一讲。

1.自我提升

需要注意的是,大模型自我提升其实并不是什么新鲜事,有很多研究的。

例如,思维链CoT的一项简单的研究就单纯在输入后加一句:“让我们一步步思考吧”就可以提升大模型的性能。其他还有背诵-增强等一众办法都可以使得大模型获得性能提升。

甚至我自己都设想过这样一种自提升方案(也是超级缝合方案了,缝了Toolformer、先知框架、背诵-增强等):

可惜这个方案被否决了,有兴趣的朋友可以尝试一些,我觉得还挺有意思的。

2.自我反思

自我反思在这里的意思很简单,即对自己之前的输出进行再次判断,看是否在哪一步走到了死胡同中,最后再修正答案。

如果经常玩ChatGPT的朋友应该知道,ChatGPT有时候会非常坚定地支持一个错误的信念(特别是做数学题),而且真的很难除掉。这样的模型真的可以做到反思吗?

整体架构如下:

这个架构对于路人朋友来说可能有些复杂,不过熟悉强化学习的朋友应该比较熟悉。简单来说,我们将大模型当做是强化学习的智能体,将动作、观察值和奖励都当做一个函数的输入来判断大模型是否要进行自我反思。其中奖励模型的输出是二元的,毕竟在不借助外力(不然就不叫自我反思了,这样的方式可以说是启发,并不是做决定,或者说只是给个参考)的情况下就只能这么做了。

如果判断需要反思,则模型会通过反思模块进行反思。这个模块是用错误“输入-输出对”等进行训练的,等于说是让大语言模型“思考”自己之前都怎样犯过错误,这次的回答是否犯了类似的错误。

这样,大模型就在反思中不断修正答案。

结果证明,还是很有效果的。

3.结语

虽然一些推送说是GPT-4实现了自我反思,但我看论文中所说的还是GPT-3和GPT-3.5。(确实,GPT-4才出来也没多久,就直接研究上GPT-4确实有些太快了)

另一点是,这篇文章好像是没有研究是否只有大模型才拥有这种自我反思的能力(看过之前一些专栏的朋友应该知道“涌现”,即只有当模型规模大到一定程度,一些能力才会出现)。

【花师小哲】当代炼金术(神经网络)前沿(26)——语言模型学会了自我反思?的评论 (共 条)

分享到微博请遵守国家法律