欢迎光临散文网会员登陆 & 注册

【花师小哲】当代炼金术（神经网络）前沿（12）——WebGPT：GPT并不是首次结合Bing？

2023-02-13 16:04 作者:花师小哲-中二 0人读过 | 我要投稿

看到WebGPT先不要恐慌，这不是什么GPT的新杀器（GPT-4：不然我的排面呢），其实是2021年就有的一个GPT模型，这也是说，GPT族其实并不是第一次和Bing结合，而是早就做过了。但是，显然，WebGPT并不是很成功的一款产品，以至于谈到ChatGPT人们一般会认为InstructGPT是其前身（或姐妹模型），而不会谈到WebGPT，于是，这篇我们来谈谈WebGPT。

1.lamda

先说下我是如何知道WebGPT的，其实很简单，就是在读lamda论文的时候看到相关研究里有（这答案好没有新意哦，就像是发现奥利奥里有糖霜一样[？]）。

简单介绍一下，lamda是谷歌的问答系统，它做出来比ChatGPT早，但是谷歌出于很多问题的顾虑所以并没有放出来，最近放出来的Bard可以认为是基于lamda的模型，当然，目前看起来这个产品并不成功。和GPT一样，lamda也是模型族，这个族里有不同参数量的一群模型

其实最开始先吐槽lamda主要是这篇论文是在是读的太痛苦了，直接放一张图：

没错，lamda并不是端到端的系统，是可以查询外部信息来生成答案的，并且采取了大量的措施来使得其回答更优质。

那么，何为优质呢？论文提到三个指标：质量、安全和符合事实。然后就到了这篇论文极其头疼的地方了——它花了极大地篇幅来讲各种各样的评价指标及其用法，这显得整个系统极其复杂。然而讽刺的是，最终谷歌还是害怕lamda会出现危险的答案，没把它放出来。

相比之下，ChatGPT就简单粗暴很多，不需要什么指标，只要人的智能够多，机器的智能就够多。

2.WebGPT是什么样的系统

相信我，你不太会愿意用它的，至少我完全不想着用，毕竟人家的界面都是这样的：

倒不是说界面不好看，主要是人一眼看过去应该不知道怎么用。

简单来说，这确实是一个问答系统，但是其运作方式大概是这样的（我没用过，只是根据论文猜个大概）：

（1）输入问题

（2）WebGPT会从Bing的API中获取很多链接，它会自己筛选一些它认为高质量的链接，并给出这些链接的摘要（PS：现在的ChatGPT也会给每一个New Chat生成摘要哦）

（3）人可以再次筛选需要的链接

（4）点击“答案生成”按钮，WebGPT会结合这些链接生成答案

（5）人可以反馈答案是否满意（ChatGPT也有哦），这期间所有的人类操作都可以当做反馈。

当然人在用系统给的反馈只是锦上添花，基础的功能还是要在发布时就实现好

3.人类反馈

从标题就可以看出来，这篇论文试图说明一个观点：对于语言大模型，最终人类反馈是绕不开的。这也是后来ChatGPT会出现的一个很重要的结论。

一共有四种：

（1）行为克隆（Behavior cloning, BC），或监督微调。

（2）奖励模型（Reward modeling, RM）。

（3）强化学习（Reinforcement learning, RL）。

（4）拒绝抽样（Rejection sample）。

毕竟这个系列的专栏是科普性质，就不展开讲了。

最终WebGPT的实验证明最有效的组合是（1）+（4），然而，懂一些ChatGPT底层技术的朋友应该知道，ChatGPT的几个重要核心其实是（2）+（3），可以说WebGPT完全避开了正确答案（？）

还好WebGPT的论文没有说死，还是说了强化学习在某些场合下是有用的，不然这梗我可能又要玩一年了

4.为什么WebGPT没有像ChatGPT那样成功

（这个问题是不是该问问InstructGPT，毕竟它和ChatGPT应该是目前最像的模型了）

这部分涉及到一些专业知识（毕竟是直接粘贴了我的论文笔记，懒得写新的了）。仅为个人初步观点。

（1）交互界面不够灵活，提问要有一定的形式，更类似于数据库检索或web信息检索系统；

（2）答案受查询结果的影响较大（虽然WebGPT会使用语言模型再给链接提取摘要）；

（3）比较数据是对两种回答排序，更多的排序交给了RM（以防大家忘记，这个是奖励模型，不是RoboMaster），而ChatGPT是人工的多回答排序；

（4）人类的反馈太多反而使得使用的步骤过于繁琐

5.结语

其实在写这篇专栏的时候收到了导师的这一条消息：

好吧，我被迫进入新的时代了，虽然其实我并不是很清楚出了什么事（按理说表格预训练都还处于研究初期啊，都是一群谜语人），但突然有些感慨，毕竟这个时代终归会来的。

标签：

【花师小哲】当代炼金术（神经网络）前沿（12）——WebGPT：GPT并不是首次结合Bing？的评论 (共条)