【花师小哲】当代炼金术（神经网络）前沿（36）——ChatGPT比我会砍价

2023-05-18 10:30 作者:花师小哲-中二 0人读过 | 我要投稿

写ChatGPT万字拆解的符尧大佬近期发表了一篇新的论文：

这篇论文的想法真的巧妙，简单来说，论文让两个大模型进行讨价还价的对抗。

1.描述

如图：

思想很简单，就是让两个语言模型分别充当买家和卖家。卖家的目的是提高价格，买家的目的是降低价格，就是我们熟悉的讨价还价。

除此之外，还有个第三者，你可以认为是两者的智囊团。因为现在的大模型还不够智能，引入智囊团可以帮助买卖双方更好的更新自己的策略。例如一组对话可能是这样的：

（有一个人前来买气球）

买家：我想买一个气球

卖家：好啊，16块钱一个

买家：好呀好呀

第三者：卖家你不能这样就直接卖了，你要说的这个气球好像很金贵一样，尽量卖的更高价一些（这就是根据之前的对话给策略了，不一定只给卖家建议的）

卖家：160块一个，不能便宜了。你看现在哪有气球啊，这都是大鹏的气球，你嫌贵我还嫌贵呢

买家：What's up。你这气球绳子是金子做的还是气球皮子是金子做的（

......

2.能考察什么

虽然看起来这个任务很简单，但是真的是很巧妙的一个设计

首先，在角色扮演，或者说理解我们想让模型做什么这一点上大部分模型都过不去，更不要提后续的多轮对话了。

要很好的完成这个任务，模型要理解问题、根据对方的话进行反馈、根据第三者的建议调整自己的策略、保持自己的辩论思路不滑坡等。第三者还需要根据多轮对话中给出不同的建议。可以说是能考察的很全面的一个任务。

在测试的所有模型中，只有GPT族的一些模型和Claude能够具备所有的能力（所以Claude是ChatGPT第一竞品真的不是说着玩的啊）

3.讨价还价这个任务其实很难找

论文中也提到，他们也尝试了很多其他任务，例如RPG，但是对于现在的大模型来说还是太复杂了。

其实我个人也是做过相关研究的（还好方案做着做着就被否掉了，我这种没有生活经验的人真的想不出这个任务），例如“甜豆腐脑vs咸豆腐脑”：

我们知道，为了不生成毒性内容、尽量不引起对立等，ChatGPT的生成是受限的，图中其实完全没有吵起来，到最后都是和和气气的。（这张图还是专门选过的，很多时候甚至都不会有任何吵起来的迹象，就是说“我喜欢甜豆腐脑但是尊重喜欢咸豆腐脑的人”，然后就没有下文了）

但是讨价还价却能绕过这个机制。

所以讨价还价可以说是刚刚好的一个任务，不会太复杂，也不会触及到ChatGPT的“逆鳞”。而且真的接地气好吧。。。

4.小展开

那么，为什么讨价还价这个任务能绕过ChatGPT的“逆鳞”呢？这其实是一个很值得深挖的一个点，可能会挖到预训练预料中的bias、RLHF中存在的一些问题等方向。我觉得有兴趣的朋友可以展开分析一下。我还是在忙着干活的过程中突然被导师扔来了这个论文，看还没有别人发且真的有意思，就先写一下，回去干活了

标签：

【花师小哲】当代炼金术（神经网络）前沿（36）——ChatGPT比我会砍价的评论 (共条)