欢迎光临散文网 会员登陆 & 注册

【花师小哲】当代炼金术(神经网络)前沿(36)——ChatGPT比我会砍价

2023-05-18 10:30 作者:花师小哲-中二  | 我要投稿

写ChatGPT万字拆解的符尧大佬近期发表了一篇新的论文:

这篇论文的想法真的巧妙,简单来说,论文让两个大模型进行讨价还价的对抗。

1.描述

如图:

思想很简单,就是让两个语言模型分别充当买家卖家。卖家的目的是提高价格,买家的目的是降低价格,就是我们熟悉的讨价还价

除此之外,还有个第三者,你可以认为是两者的智囊团。因为现在的大模型还不够智能,引入智囊团可以帮助买卖双方更好的更新自己的策略。例如一组对话可能是这样的:

(有一个人前来买气球)

买家:我想买一个气球

卖家:好啊,16块钱一个

买家:好呀好呀

第三者:卖家你不能这样就直接卖了,你要说的这个气球好像很金贵一样,尽量卖的更高价一些(这就是根据之前的对话给策略了,不一定只给卖家建议的)

卖家:160块一个,不能便宜了。你看现在哪有气球啊,这都是大鹏的气球,你嫌贵我还嫌贵呢

买家:What's up。你这气球绳子是金子做的还是气球皮子是金子做的(

......

2.能考察什么

虽然看起来这个任务很简单,但是真的是很巧妙的一个设计

首先,在角色扮演,或者说理解我们想让模型做什么这一点上大部分模型都过不去,更不要提后续的多轮对话了。

要很好的完成这个任务,模型要理解问题、根据对方的话进行反馈、根据第三者的建议调整自己的策略、保持自己的辩论思路不滑坡等。第三者还需要根据多轮对话中给出不同的建议。可以说是能考察的很全面的一个任务。

在测试的所有模型中,只有GPT族的一些模型和Claude能够具备所有的能力(所以Claude是ChatGPT第一竞品真的不是说着玩的啊)

3.讨价还价这个任务其实很难找

论文中也提到,他们也尝试了很多其他任务,例如RPG,但是对于现在的大模型来说还是太复杂了。

其实我个人也是做过相关研究的(还好方案做着做着就被否掉了,我这种没有生活经验的人真的想不出这个任务),例如“甜豆腐脑vs咸豆腐脑”:

这个网站接了ChatGPT的API,但有一定保密性

我们知道,为了不生成毒性内容、尽量不引起对立等,ChatGPT的生成是受限的,图中其实完全没有吵起来,到最后都是和和气气的。(这张图还是专门选过的,很多时候甚至都不会有任何吵起来的迹象,就是说“我喜欢甜豆腐脑但是尊重喜欢咸豆腐脑的人”,然后就没有下文了)

但是讨价还价却能绕过这个机制。

所以讨价还价可以说是刚刚好的一个任务,不会太复杂,也不会触及到ChatGPT的“逆鳞”。而且真的接地气好吧。。。

4.小展开

那么,为什么讨价还价这个任务能绕过ChatGPT的“逆鳞”呢?这其实是一个很值得深挖的一个点,可能会挖到预训练预料中的bias、RLHF中存在的一些问题等方向。我觉得有兴趣的朋友可以展开分析一下。我还是在忙着干活的过程中突然被导师扔来了这个论文,看还没有别人发且真的有意思,就先写一下,回去干活了


【花师小哲】当代炼金术(神经网络)前沿(36)——ChatGPT比我会砍价的评论 (共 条)

分享到微博请遵守国家法律