欢迎光临散文网 会员登陆 & 注册

囚徒困境的数理化解释与延展思考

2023-02-16 20:43 作者:满口的之乎者也  | 我要投稿

在正式更新春分剧情解析之前,我们先补充一个关于囚徒困境的知识,当然不仅仅这期视频用得到,其他时候也可以借用这个模型来思考一些问题。总而言之还是非常有趣的。


囚徒困境是一个经济学和博弈论名词,是研究多个理性人在面对一个问题是采取的行动以及所产生的影响的问题。今天我们就从二维囚徒困境的数理化证明逐步扩展,来进行更进一步的社会抽象思考。

 

我们首先看最经典的囚徒困境。两个犯人面对警察的询问,可以选择招供和不招供。他们同时招供时都会被判入狱。一个人招供一个人不招供时,招供者将因为主动合作大大缩短刑期,而不招供者会因为抵赖而加重刑期。都不招供则会因为证据不足而得到释放。

在前面的是A的结果,后面的是B的结果

一眼看下来,大家都会觉得两者选择都不招供显然是最优解。但是囚徒困境的推导却告诉我们他们最后都会选择招供。下面用纯粹逻辑的方式来证明。

假设二者都是理性人,都能够为了自身的利益而理性的行动,那么现在二者面临两个选择,招供和不招供。如果招供,无论对方选择招供还是不招供,他最多面临正常的刑期。而如果他选择不招供,则对方的选择可能导致自己刑期加长,也可能导致自己无罪释放。面对不确定性,我们不对二者的性格做出假设,我们假设是最纯粹的理性人,也就是风险厌恶型,所以他们会选择招供。

而又因为他们是理性人,所以他们能够推理出对方也会这么选,如果自己选择不招供,那么就完蛋了。因此自己只能选择招供。

这实际上就是纳什均衡,即我们知道对方做出的选择之后做出的选择就是双方的平衡点,注意这里的双方都是可以互相转换的,对等的,所以我们得出了这个结论。


纯粹逻辑的推到可能有些绕,一下子看不懂,接下来我们用一些数字进行推到。

除此之外,我们在引入概率,即他们推测对方做出这个选择的概率有多大。我们先从简单的出发,二者都假设对方做出两个选择的概率是50%,即:

那么我们就能算出二者的收益期望。

如果A(B)选择招供:7*50%+2*50%=4.5年

如果A(B)选择不招供:15*50%+0*50%=7.5年

从期望来说,选择招供能够获得更高的收益。

那么我们再抽象一点,将收益和概率参数化:

我们再计算他们的期望:

如果A(B)选择招供:E1=a*p%+c*q%

如果A(B)选择不招供:E2=b*p%+d*q%

那么当这些参数达成什么样的条件的时候他们能够达成理性合作呢?

①假设刑期变化,概率还是最简单的五五开:

当a-b>d-c时,有E2<E1,即双方选择都不招。

但是又由条件易知b>a,所以条件要成立必须要c>d才有可能,即都不招供的时候面临的处罚比背叛获得的惩罚还要轻。不仅如此,当对方招供的时候忠诚的代价要小于对方不招供时背叛的收益。

如果我们用数字举例子,就能看到:

此时如果A(B)选择招供,他的期望是6年刑期,而选择不招供的刑期只有4年。从理性人角度出发他应该选择不招供。

 

②假设刑期不变,概率发生变化:

当p/q>(d-c)/(a-b)时,有E2<E1,即双方选择都不招。

又由条件知道一般来说b>a c>d,且b-a>c-d,所以只有当q>p,也就是对方选择不招供的几率更大的时候他们才能做出这种决策。

带入到我们之前的例子,我们能算出双方招和不招要到二八开以上才能做出都不招供的决策。而二八开的时候才是两个期望刚刚相等的时候。

所以我们看到囚徒困境并不是无解的,也不是什么心理学人性喜欢背叛,而是一个实打实的收益问题。也就是说当利益的驱使或者是惩罚的威胁足够大的时候,人们当然愿意合作。而这就推导出一个结论。

要想使得囚徒困境走向合作就需要利益足够大或者惩罚足够大。

而一般来说囚徒困境的起点都是合作收益虽然很大,但是背叛收益更大,都不合作虽然收益不大但是也过得去。

比如说公交车专用道的设立。如果大家都不走专用道,就是走向合作,那么有部分人会因为公交车更加便利而放弃使用私家车出行,使得道路条件得到改善。如果少部分人走专用道大部分人遵守规则,那么小部分人就能享受极高的收益,其他人都在堵车的时候他们能够畅通无阻。如果大家都占用专用道,就相当于路变宽了一条道,能够对堵塞起到一定的缓解作用,但是同时又让更多的人选择私家车,所以最后收益是正是负还不好说。

不仅如此,刚刚我们探讨的只是只有两个参与者的情况,当参与博弈的人数上升到3,4,5,乃至n个人,又该怎么办?只要有一个人打破规则那么就会使得大家都打破规则选择不合作。而那么多个人里面有一个人打破规则实在是太简单了。

所以走出囚徒困境的唯一办法就是改变博弈矩阵。而改变矩阵的方法有两种。一种内部一种外部的。

外部因素很简单,就是加大对于背叛的惩罚。比如说犯人双方约定只要谁背叛,那么各自有权可以找人杀背叛者全家。对于公交车专用道来说就是私家车驶入就扣分罚款,使得背叛的收益非但不是正还是负的。

内部因素相对难以形成,就是改变对方选择的概率。比如犯人双方是同生共死的双胞胎兄弟,对对方无条件信任,那么对于双方来说对方选择合作的概率就是100%,这样选择合作的概率也是100%。对于社会来说,就是形成公序良俗和道德约束。比如在大街上裸奔只会面临很少量的行政处罚,但是对于一个理智正常的社会人来说,在好友亲人面前社死的代价更加可怕,所以现代社会没人会在大脑清醒的情况下到大街上裸奔,即便裸奔很爽。

除了外力干涉和社会生活环境变好以外,无限期囚徒困境也可能会催生内部因素的形成。也就是当双方进行无数轮囚徒困境博弈之后,就会发现自己虽然背叛能够保证自己不吃亏,但是总体而言相比合作还是损失很大。因此如果双方能够交流就会开始初步谈判,形成合作机制,即便双方不能交流。只要有人率先抛出善意的橄榄枝,在某一局选择合作吃点亏,那么对方作为理性人很有可能会接过这个橄榄枝。毕竟之前已经经历过无数轮,所以吃点小亏又怎么样呢。

而内部因素的形成一方面是需要长期的监管和控制使得规则深入人心,另一方面是社会生活条件的进步使得不合作的收益变小。

举几个简单的例子。

对于各位的爷爷奶奶一辈的人来说,他们绝大多数经历过饥荒,经历过物质极端匮乏的年代,所以他们对于食物和钱有着一种近乎偏执的疯狂。而对于绝大多数的年轻人,城市里的年轻人来说,对于饥荒和饿肚子没有什么概念。所以如果设立食物共享站,那么年轻人选择合作的概率将远远大于老年人,因为二者所经历的社会环境使得他们的博弈矩阵是不一样的。

同样,对于公交车排队,现在绝大多数城市的公交车没有检票员没有引导员负责看看有没有人逃票有没有人插队。因为随着社会的富足和长期的管理和观念灌输,守秩序的社会风气已经形成。所以面对公交车逃票和插队的囚徒困境,不需要外力干涉来促使合作局面的达成。

而对于无限轮博弈导致的规则和秩序则可以参照人类文明的演化过程。最开始的部落之间在面对和平——战争的囚徒困境之中都会选择战争,因为打赢了就能获得对方的一切,无论是财产还是人口,而选择和平只能任人宰割。但是经历过漫长的历史过程,在几千上完年近乎无限轮囚徒困境博弈之后,大家都明白打来打去实在是没什么好处,今天刚抢来的明天就有可能被抢。因此超越血缘和氏族的联合开始出现,社会逐渐演化,并发展出规则来维护合作局面。这实际上就是国家诞生的开始。而在资本主义社会发展过程中,垄断大亨所面临的囚徒困境最终也导向了巨头联盟,共同瓜分社会,形成了寡头合作的帝国主义社会。直到社会主义运动对寡头联盟形成了强烈冲击,才使得反垄断法等法规出现。

那么在更新视频之前,留给大家一个思考,在明白了囚徒困境运作原理的情况下,大家觉得恶行不断滑坡,最后越滚越大可能吗?谋善村真的可能止步于一次简单的骗保而不会做出下一步举动吗?

囚徒困境的数理化解释与延展思考的评论 (共 条)

分享到微博请遵守国家法律