【花师小哲】当代炼金术(神经网络)前沿(12)——WebGPT:GPT并不是首次结合Bing?
看到WebGPT先不要恐慌,这不是什么GPT的新杀器(GPT-4:不然我的排面呢),其实是2021年就有的一个GPT模型,这也是说,GPT族其实并不是第一次和Bing结合,而是早就做过了。但是,显然,WebGPT并不是很成功的一款产品,以至于谈到ChatGPT人们一般会认为InstructGPT是其前身(或姐妹模型),而不会谈到WebGPT,于是,这篇我们来谈谈WebGPT。


1.lamda
先说下我是如何知道WebGPT的,其实很简单,就是在读lamda论文的时候看到相关研究里有(这答案好没有新意哦,就像是发现奥利奥里有糖霜一样[?])。
简单介绍一下,lamda是谷歌的问答系统,它做出来比ChatGPT早,但是谷歌出于很多问题的顾虑所以并没有放出来,最近放出来的Bard可以认为是基于lamda的模型,当然,目前看起来这个产品并不成功。和GPT一样,lamda也是模型族,这个族里有不同参数量的一群模型
其实最开始先吐槽lamda主要是这篇论文是在是读的太痛苦了,直接放一张图:

没错,lamda并不是端到端的系统,是可以查询外部信息来生成答案的,并且采取了大量的措施来使得其回答更优质。
那么,何为优质呢?论文提到三个指标:质量、安全和符合事实。然后就到了这篇论文极其头疼的地方了——它花了极大地篇幅来讲各种各样的评价指标及其用法,这显得整个系统极其复杂。然而讽刺的是,最终谷歌还是害怕lamda会出现危险的答案,没把它放出来。
相比之下,ChatGPT就简单粗暴很多,不需要什么指标,只要人的智能够多,机器的智能就够多。

2.WebGPT是什么样的系统
相信我,你不太会愿意用它的,至少我完全不想着用,毕竟人家的界面都是这样的:

倒不是说界面不好看,主要是人一眼看过去应该不知道怎么用。
简单来说,这确实是一个问答系统,但是其运作方式大概是这样的(我没用过,只是根据论文猜个大概):
(1)输入问题
(2)WebGPT会从Bing的API中获取很多链接,它会自己筛选一些它认为高质量的链接,并给出这些链接的摘要(PS:现在的ChatGPT也会给每一个New Chat生成摘要哦)
(3)人可以再次筛选需要的链接
(4)点击“答案生成”按钮,WebGPT会结合这些链接生成答案
(5)人可以反馈答案是否满意(ChatGPT也有哦),这期间所有的人类操作都可以当做反馈。
当然人在用系统给的反馈只是锦上添花,基础的功能还是要在发布时就实现好

3.人类反馈
从标题就可以看出来,这篇论文试图说明一个观点:对于语言大模型,最终人类反馈是绕不开的。这也是后来ChatGPT会出现的一个很重要的结论。
一共有四种:
(1)行为克隆(Behavior cloning, BC),或监督微调。
(2)奖励模型(Reward modeling, RM)。
(3)强化学习(Reinforcement learning, RL)。
(4)拒绝抽样(Rejection sample)。
毕竟这个系列的专栏是科普性质,就不展开讲了。
最终WebGPT的实验证明最有效的组合是(1)+(4),然而,懂一些ChatGPT底层技术的朋友应该知道,ChatGPT的几个重要核心其实是(2)+(3),可以说WebGPT完全避开了正确答案(?)
还好WebGPT的论文没有说死,还是说了强化学习在某些场合下是有用的,不然这梗我可能又要玩一年了

4.为什么WebGPT没有像ChatGPT那样成功
(这个问题是不是该问问InstructGPT,毕竟它和ChatGPT应该是目前最像的模型了)
这部分涉及到一些专业知识(毕竟是直接粘贴了我的论文笔记,懒得写新的了)。仅为个人初步观点。
(1)交互界面不够灵活,提问要有一定的形式,更类似于数据库检索或web信息检索系统;
(2)答案受查询结果的影响较大(虽然WebGPT会使用语言模型再给链接提取摘要);
(3)比较数据是对两种回答排序,更多的排序交给了RM(以防大家忘记,这个是奖励模型,不是RoboMaster),而ChatGPT是人工的多回答排序;
(4)人类的反馈太多反而使得使用的步骤过于繁琐

5.结语
其实在写这篇专栏的时候收到了导师的这一条消息:

好吧,我被迫进入新的时代了,虽然其实我并不是很清楚出了什么事(按理说表格预训练都还处于研究初期啊,都是一群谜语人),但突然有些感慨,毕竟这个时代终归会来的。

