【花师小哲】当代炼金术(神经网络)前沿(2)——龙王归来的前奏?

最近AI领域的重磅消息真的不少,昨天还在讨论pytorch2.0,今天就开始讨论ChatGPT了。
本来想先写写可解释人工智能的,但只能插播了。
不过根据我写作的一贯风格,我不会像很多AI领域的公众号或自媒体一样写写比较专业或博人眼球的东西(介绍这个东西的标题竟然是“谷歌要完蛋了”之类的),所以这次不光讲ChatGPT,我们还关注于一个庞大的工程——GPT。
当然,由于我对GPT也没有那么熟,之后一些说法可能有些常识性错误,还望大家见谅。我还是主要根据我的经验讲讲故事。

1.宿敌?
在之前的专栏中,我们谈到了强大的模型BERT:
既然BERT在当时成为一个可以说远超其他模型的方法,那么就一定会存在一个问题,在BERT之前谁是自然语言处理领域的最强大模型呢?被BERT超越的是谁呢?答案就是GPT(当时应该是GPT-2吧)。
谈到BERT,我们经常和GPT相比,BERT相比于当时的GPT为什么会更好呢?主要有两个原因:
(1)BERT使用了attention机制而GPT没有(这点要记住,后面还会提到)
(2)BERT有比较优秀的预训练任务(以防万一这里补充一句,BERT和GPT都是预训练语言模型,算是直接竞争对手,所以可比性才比较强)
当然,GPT肯定不会甘心于被BERT超越的,于是不久就发布了GPT-3,算是扳回一局。


2.强,还能更强?
GPT-3之所以能够和BERT分庭抗礼,一个比较明显的原因是GPT-3是超级庞大的模型,号称参数有1750亿个。另一个原因就是Prompt了(我不确定Prompt是不是GPT-3所采用的,主要是我对Prompt真的不熟)。
要说prompt,还要谈起神经网络训练范式的发展
(1)最开始的范式是“直接训练”。就很简单,你拿到数据,写好神经网络,随机初始化参数,然后就从头开始训练网络。
(2)在BERT那个时代,所采用的的范式是“预训练-微调”。“直接训练”是非常耗时间且没有效率的。一方面是因为训练本身就需要大量数据、算力等,另一方面是很多人处理的问题都差不多,很多时候没必要重新训练网络。
于是有了“预训练-微调”,即由大公司等先训练一个大网络,这个网络是无所不包的,然后将预训练好的模型交给用户,用户再根据具体的需求进行训练和调整(称为微调)就可以快速地使用。
(3)“预训练-微调”范式存在一个很严重的问题。预训练模型为了能够完成不同的任务,往往都是些庞然大物,有些时候,用户的训练样本是完全不够的,这导致自己处理的小问题往往并不能够得到有效的解决。
例:很多朋友玩NovelAI,觉得生成的图片很“”很网红脸”,这种现象常用的是过拟合解释。然而,我们也可以用“预训练-微调”范式来解释,即你自己的样本数量完全不足以对预训练大模型产生足够的影响,或者说,大模型并没有充分学习到你的样本的“特色”。
为了解决这个问题,我们引入了prompt机制,形成了“预训练-prompt-微调”范式。prompt不展开讲,大体意思是改造我们的微调任务,让它更像预训练任务,以此来缩小“预训练”与“微调”之间的差距。
这样,GPT-3就有了强大的能力了。
当然,事情还没有结束。GPT还要继续发展,于是乎,号称是地表最强模型的GPT-4即将登场了。

3.地表最强模型的预演?
所以我更倾向于把这次ChatGPT当做是GPT-4出现的一个预演,像是抄热度的行为。

其实不只这一个事件,前不久还有不少公众号推文说有研究团队证明了attention机制并没有那么强大,也就是说算是踩了BERT一脚。
加上这次ChatGPT的亮眼表现,很难不让人联想到捧一踩一,为即将登场的GPT-4的出场造势。
我导师也在群里分享了一些截图,说有内部消息称微软已经开始收集公司的A100全拿去训练GPT-4了。当然,这些消息也就图一乐,也不一定是真的。GPT-4具体表现还要实践检验啊(到时发现,笑死,根本带不动)

4.ChatGPT是什么?
于是乎,还是要谈谈ChatGPT是个什么东西。看起来很多人都喜欢把它和搜索引擎做对比。
不过它确实像搜索引擎,或者说,对话式搜索引擎。它强就强在更加方便。例如,作为程序员,你遇到了一个error不知道怎么解决,通常会百度一下,然后一个个网页点进去,发现很多并不是你想要的,而ChatGPT能直接给你答案列表,你还可以追问等。
或者更直白些,它就是一个问答系统,给你答案更方便,更像是一个经验比你丰富的师兄。
当然,直接吹这东西能取代搜索引擎还为时尚早,据说这东西并没有接入网络,实际上能力相比于发展了那么多年的搜索引擎差距还是蛮大的,也只有在一些特定的问题上表现会好得多。

5.搜索引擎需要被替代掉吗?
最后再谈另一个问题,即搜索引擎会被替换掉吗?
万维网创始人Sir Tim Berners-Lee当时写了一篇很有影响的论文,这篇论文引发了之后互联网、知识图谱等多个领域的发展。在那篇论文中Lee构想了一种系统,在这个系统中,事物之间有大量的连接,或者说,是以“连接”为中心的系统。
于是很快,互联网采用了这种思想,通过URL(对于普通人来讲,其实就是网站链接,bilibili.com这种)构成了这样的系统。搜索引擎给出的就是一个个的链接。
这时候,我们就发现了搜索引擎和ChatGPT的区别,ChatGPT不是给你链接的,而是直接给你答案的。
其实Lee当初的设想并不是web或超文本式的链接,而是数据的链接,是能直接给答案的那种。从这一路出发的就是知识图谱了。虽然看起来和ChatGPT很像,但也有差别。有些系统支持类似于只是图谱的查询,但是相比于搜索引擎,还是太局限了。
不管怎么说,直接给答案而不是给链接算是计算机人的一个愿景吧,毕竟谁不喜欢更方便的东西呢?