一个经典问题的博弈论分析
这是一个挺有名的节目片段,涉及两个人分奖金的策略。关于这个片段的讨论和发散可以搜到很多,不过大部分都不是很严格,只局限于口头上的定性论证。本文稍微定量地分析一下这个博弈(以下视频的1p)

场景是这样的:Ibrahim和Nick在这个游戏节目的最终轮通过博弈决定奖金的分配(总奖金记为单位1)。两人各自选择split或者steal,如果同时split则各自分到一半,同时steal则都拿不到奖金,一人split一人steal则由steal的人独吞。
这是一个经典的囚徒困境,两个人的理性选择都是steal,最终结果就是全都拿不到奖金。理论上双赢的情况是两人合作选split,这样都可以拿到一半;但这个策略是不稳定的,其中任何一个人都可以通过临时反悔选steal来独吞所有奖金。
但这个节目和简单的囚徒困境的区别在于,两个参赛者有一段自由讨论的时间,在讨论阶段,两个人可以提出合作,可以撕破脸,可以虚张声势欺骗对方,等等。这个讨论阶段就为博弈引入了复杂性,并且导致最终的纳什均衡有机会逃离囚徒困境。
具体来说,在这个片段里面,Nick采取的策略就是,向Ibrahim声明:1.自己一定会选steal(注意是steal而不是split;大部分人都会提议双方一起split,这里Nick属于另辟蹊径,所以观众都懵圈了);2.如果自己拿到全额奖金,在节目结束后一定会分给Ibrahim一半。当然,这两个声明没有任何实际约束力或者法律效力,只是纯粹的空谈。实际上Ibrahim也确实非常怀疑Nick,并且非常努力地想让Nick改变想法选择split,但Nick非常坚定,只好作罢。
最终选球的结果非常出人意料:两个人都选择了split,达到双赢的结果。下面就来定量地分析一下,为什么会有这样的结果?
为了简单起见,我们不考虑双方在讨论阶段的博弈(即,不讨论他们是否有动机去提出合作/欺骗对方,等等),而只关心讨论阶段(视为给定)对最终选择这个静态博弈的影响。
具体到这个视频,在讨论阶段,Nick给Ibrahim引入了两个方面的不对称信息:1.“我声明自己会选steal,但也有可能食言”;2.“我声明自己赢后会分给你一半,但也有可能食言”。这样,最终选球的博弈就从一个普通的正则形式博弈变成了贝叶斯博弈。
为了尽可能保持一般性,我们从偏好开始建立一整套模型。
我们假设Ibrahim的偏好是,其中
是
上所有概率测度的集合。我们假设这个偏好是理性、连续的,并且满足独立性公理,从而有Von Neumann–Morgenstern期望效用表示,其对应Bernoulli效用记为
。
类似地,我们假设Nick的偏好是,其中
是
上所有概率测度的集合。其中,H代表不食言,F代表食言。我们引入H和F是因为,Nick不仅在选择最终赢到的钱,也在选择自己是否食言,而通常来说保持诚信会在心理上给人正向的激励。当然,这个模型并不排除Nick完全没有食言的心理负担的可能,它允许任何可能的偏好。同样,我们假设这个偏好是理性、连续的,并且满足独立性公理,从而有Von Neumann–Morgenstern期望效用表示,其对应Bernoulli效用记为
。为了之后标记简单起见,我们把这两个函数重新记为
。
现在进入不对称信息的刻画。Ibrahim不知道Nick的两方面信息:1.有多大的倾向选择守信选择steal(用效用函数上的随机性刻画);2.有多大概率分一半奖金。我们假设这个整体的后验测度在分一半奖金上的边缘概率为,而条件于“分一半”(S)/“不分”(K)上的效用函数的条件分布分别为
和
。这样Ibrahim的不完全信息的完整测度就刻画出来了。这个测度是在讨论过程中形成的。
至于Nick对于Ibrahim的不完全信息,其实可以看作是没有的,因为Ibrahim属于谈判中的被动方,并没有主动引入关于自己的不对称信息。不过,因为我们把Nick的效用函数的不确定性引入了模型,那么公平起见,就不妨把Ibrahim的效用函数不确定性也引入进来。当然,这个不确定性没有本质影响。我们把它记为。
这两个测度实际上定义得有点随便,毕竟函数空间上的测度并不是一件平凡的事情,通常需要用有限维去扩张形成。不过这里就假装它们都是良定义的好了。
在模型设定好之后,纳什均衡就可以直接定义出来了(我们用C表示cooperate即split,D表示defect即steal。具体的U的形式没有写出来,读者感兴趣的话可以按节目本身的设定把它的具体表达式补足):
这三个方程看起来有点麻烦,包含了一堆泛函。当然,完全的求解大概也是不可能的。不过有一个好消息:我们可以找到它的一个特解:
读者要是感兴趣的话,验证这个特解符合定义还是挺简单的。然后我们可以看看这个特解到底说了什么:如果Nick确实打算诚实地平分他的一半奖金,但是在自己会选择steal这件事上刻意说谎了;而Ibrahim则在讨论过程中形成了这样的后验认知:Nick确实有一定的正概率选择平分奖金,并且也有足够大的概率选择steal——那么最终,两个人都选择split确实是一个可能的纳什均衡。这就确实地解释了视频里最终两人的选择。
当然,读者可能会想,这毕竟只是无数纳什均衡中的一个(对于这个模型,确实有无数个纳什均衡),为什么它就是最终被实现的那个?假如纳什均衡只有一个,那解释力就更强了。下面我们给出一个简化版的模型,在这个简化版的模型里,两人都选择split确实是几乎唯一的纳什均衡。
简化版的模型:首先,Ibrahim身上效用的不确定性直接扔掉好了;其次,我们假设Nick身上的效用符合这样一个简化条件:
即,选择诚信和选择食言之间,有一个固定的常数效用差值。这样就把系统的自由度从无穷个缩减到了两个(h和)。
的定义和前面一样,而h的后验分布(条件于平分/不平分上)则分别用
这两个cdf来表示。这样一来,模型就清爽了很多。纳什均衡的条件也简化成了(一样,u的具体表达形式略去,它由节目规则本身定义):
这么一个方程组其实是可以完全求解的。具体过程就不写出来了,总共有6个可能的解,这6个解是互相之间无法完全共存的。特别地,当以下参数条件被满足时:
这个系统只有唯二的两个纳什均衡:
它的直观意义就是:Ibrahim只能选择split;而Nick确实打算诚实地平分他的一半奖金,但是在自己会选择steal这件事上刻意说谎了,因此选择split或者steal(此时两个选择对他没有区别,因为他确实打算平分)。无论如何,Ibrahim的最佳选择都被强行挪动到split。红色的这个条件就是Nick在讨论过程中必须达到的目标:只要他把Ibrahim的后验认知修改为符合红色的这串条件,那么Ibrahim就只能不得不选择split。这也是Nick在讨论中(假装)非常坚持自己一定要选steal绝不动摇的原因,因为只有这样才能让Ibrahim的后验认知偏移到满足标红条件的区域。
对这串标红条件的分析还是挺有意思的。比如说,我们可以看出,必须要大于0,也就是说,Nick必须要让Ibrahim相信自己有正概率平分,无论这个正概率有多小;同时,Nick也需要让Ibrahim相信自己以正概率存在正的道德负担,也就是至少需要有那么一点不是“完全欺骗”的概率;这两个“正概率”还有一定的trade-off,一个小的话另一个必须大,反之亦然;最后,我们还可以看出,如果双方越是厌恶风险,那么就越倾向于达成split-split这个双赢的合作场面。
总的来说,这个例子展示了通过引入不对称信息来规避囚徒困境的一种可能性,还是挺有意思的。