欢迎光临散文网 会员登陆 & 注册

【花师小哲】当代炼金术(神经网络)前沿(24)——往语言大模型里塞视觉模态

2023-03-14 10:34 作者:花师小哲-中二  | 我要投稿

GPT-4将是多模态语言模型似乎已经实锤了,但是大模型是他们的,一般的研究人员又训练不起自己的大模型,只能用着大模型API勉强过活。这种情况下,想要做多模态似乎只能在大语言模型上修修补补了。下面这篇论文就是一篇比较典型的论文。(其实是做了梗图后觉得还是写写专栏吧)

1.把其他模态往大语言模型里塞

现在已经有非常多的通过给大语言模型增加配件的方法来使得其具有多模态能力的尝试了,具体可见如下链接中(包括多模态一些概念也可以在里面找到):

【花师小哲】鉴定网络热门(?)AI(4)——多模态大模型

这篇前两个都是多模态大模型,第三个就是给ChatGPT加配件了。

但不管怎么说,这些方法依然是以大语言模型为主体,对于大语言模型来说,其他的模态和东西更像是一种“外语”,换句话说,其实都像是硬把其他模态往大语言模型里塞,只是有人塞得好,有人塞得不好一样。

塞得好不好是很影响性能的,见如下梗图:

来源:《沦落者之夜》,安利一下

图中的白发女孩是盲人。这说明如果我们对视觉的处理不够好的话,大语言模型实际上是完全无法从视觉模态中获得有用的信息的。

2.视觉问答

本文研究的问题是视觉问答,大体就是我放入一张照片,然后问模型一些问题。

例如我有一张猫和狗的照片,我可以把照片和问题“在这张图中,猫在狗的左边还是右边”一起输入一个模型中,然后模型会告诉我“左边”或者“右边”。

传统的方法有很多,例如通过一个视觉处理模块,获得一些知识或图片描述,然后可以通过外部知识库来进行处理。

有了大语言模型之后,很多人就用它直接代替外部知识库了。问题就转变成如何将视觉模态更好的塞进大语言模型里了。

图片描述往往是不够的,论文中给的一个例子:

图中的树们:我们呢?

对于这张图片,视觉处理模块给出的表述是“一群人走在路上”,这当然是堆图片整体的合理描述,但我要是问那棵树的品种呢?这种情况下,这个描述对于大语言模型就是纯粹的干扰了。

3.小模型提示大模型

本文的做法依然是一种改进大语言模型prompt的做法。

这里再解释一下,对于大语言模型,我们是可以通过给出一些例子等方式来使得模型对某一问题的处理更好的。例如我们先给出几段机器翻译的例子,再给我们需要翻译的句子,往往效果会好很多。简单来说,这些辅助文本就是prompt,写好prompt能够帮助我们更好地使用大模型。

整体框架

简单来说,本文训练了一个小模型用于处理视觉模态,这个视觉模态会输出一些可以帮助改进prompt的,主要是往prompt里增加示例(和问题相似的一些已知问题)和候选答案,就像是让大语言模型做选择题一样。当然,大语言模型也可以不从候选项中选择答案,而是根据问题本身进行合理推理(虽说是视觉问答,但视觉不总是有用的,甚至可能是干扰项)。

作者认为这种用小模型提示大模型可以成为一种新的范式

4.讨论

可,问题是,这种范式真的有竞争力吗?

再回到文章开头,之所以会有这类方式出现,是因为对于很多人来说,大模型是训练不起的,手头能用的硬件就那么多,所以这种做法更像是退而求其次。

多模态大模型还在蓬勃发展中,并且已经展现出强大的实力,而这种“小模型提示大模型”范式还是存在对症下药的问题,即对于具体任务要设计新的小模型。

不管怎么说吧,大模型的发展在一步步地改变AI的整个研究范式,未来会如何发展依然是不明确的,但只有走下去才能看到未来。


【花师小哲】当代炼金术(神经网络)前沿(24)——往语言大模型里塞视觉模态的评论 (共 条)

分享到微博请遵守国家法律