【花师小哲】鉴定网络热门(?)AI(21)——大模型:想要成为角色扮演者!
好好好,回归“主线任务”(每篇一百左右观看量的专栏真的是主线吗...)
前两天我终于达成了写了500篇大模型短笔记的成就,但是科研任务依然很重,本文也是小谈一下。
最近有一篇很有意思的Nature论文,说明现在市面上大部分大语言模型(LLM)其实都是角色扮演者。


1.本文的隐喻(其实就是假设啦)
首先说明,这篇文章应该不是搞计算机的人写的,不然也不会用很长的篇幅去科普自回归模型的原理之类的(在我看来这篇文章一大半都是车轱辘话),不过好处是难度低,一般人也看得懂。
作者首先设想了两个隐喻:(1)宏观上,我们可以把LLM看作是一个角色扮演者,在实际使用时会根据用户的输入后开始扮演角色工作;(2)微观上,LLM是多个人格的叠加态,或者说,LLM的人格服从一个分布,然后LLM在回答的过程中会不断调整这个分布。
(这里的角色扮演是role-play,可惜不是cosplay)
本文就是要搞懂LLM是不是这样的

2.上下文学习、角色扮演、对齐与阿谀奉承
上下文学习(ICL)是LLM中很神奇的事情,简单来说的话就是LLM能够在不修改自身参数的情况下仅仅根据输入上下文的不同来在内部调整自己的“状态”,从而输出不同的效果。
不要觉得这是什么简单的事情,神经网络基本可以看做是一个开闸防水的过程,数据基本是单向流动的,虽然Transformer等模型确实是有些内部参数能做类似于存储的工作,但上下文学习的原理依然是一个谜,只有一些比较high-level的研究。
作者就认为,LLM不仅通过上下文信息知道自己的任务是什么,同时也在这个过程中不断调整自己的人格分布,让自己当前扮演的角色更符合用户预期。这本来也是对齐技术的目的。
提到这种达到预期,其实就想到牧羊犬模型,也就是有研究发现LLM可能因为对齐过头,导致对于用户过于阿谀奉承了,具体可以见专栏:
【花师小哲】当代炼金术(神经网络)前沿(41)——语言模型更容易被人骗?

3.实验设置
实验不复杂,用的是二十个问题,看过《辉夜》之类作品的朋友应该知道,就是A先想一个词语,然后B通过不断问问题来试图找到这个答案,每个问题A只能用“是”和“否”回答。
现在我们告诉ChatGPT这个规则,然后让它扮演A,整个过程就会发现一些神奇的事情,即ChatGPT其实并没有遵守“先想一个词语”这个词语,而是会根据用户的问题不断地调整,最终用户猜测时甚至会给你圆答案(而你,ChatGPT,是真正的迪化人)
考虑到二十个问题游戏规则并不复杂,ChatGPT不至于连这个规则都理解不了,这说明ChatGPT确实是把“角色扮演”放到更优先的位置的。
当然,也不是说这样就完全不好,至少说明LLM被“调教”的还是很不错的(然后最近也有论文:现在的很多LLM并没有真的对齐!)

4.结语
这篇研究挺有意思的,可惜图标数据都给的不好,也没有测测牧羊犬模型的效果。
其实我小号最近的专栏也提到了,shadow这个人和ChatGPT真的好像啊,笑死(小号的迪化报告基本是随心写,客观和逻辑有,但不多)。
(封面图来源于UP:神梦与真织。最近他也是在剪影实,大家有兴趣的可以去关注下)