博弈论(微观解纷策略及案例解析附录3)
附录3
博弈论[67]
[67] 参见刘庆财编著:《博弈论》,北京联合出版公司2020年9月。
一、博弈论入门
㈠什么是博弈论
博弈论,又称对策论,是指双方或者多方在竞争、合作、冲突等情况下,充分了解各方信息,并依此选择一种能为本方争取最大利益的最优决策的理论。博弈的深层意义在于,所得的最优策略与对手在博弈中的操作没有依存关系。简言之,其理性思想就是抱最好的希望,做最坏的打算。
㈡博弈的前提
在博弈论中有一个假定前提,也就是我们谈论博弈论最基本的前提,那就是博弈的所有参与者都是“理性人”。在博弈论中,参与者是理性人是指每个参与者的基本出发点是为自己争取最大的利益,每个人在制定决策的时候,都会选择能给自己带来最大利益的那个决策。因为每个参与者都是理性的,所以参与者在理性地制定决策的时候,会考虑对方的决策,因为对方也是理性的。理性人的最大特点就是以追求最大利益为行动目的。
㈢博弈四要素
1.至少两个参与者。博弈论的参与者又被称为决策主体,也就是在博弈中制定决策的人。参与者在博弈中的表现便是制定决策与对方的决策抗衡,并为自己争取最大利益。参与者之间的关系是相互影响的,自己在制定策略的时候往往需要参照对方的策略。
2.利益。从博弈论的定义中我们知道,双方或者多方进行博弈的最终目的都是为自己争取最大的利益。
3.策略。在博弈中,决策主体根据获得的信息和自己的判断,制定出一个行动方案。这个行动方案便是策略。通俗地讲,策略就是指决策主体做出的,用来解决问题的手段、计谋、计策。策略是博弈论的核心,关系着最后的胜败得失。博弈也可以看作是各方策略之间的较量。
4.信息。利益是博弈的目的,策略是获得利益的手段,而信息就是制定策略的依据。要想制定出战胜对方的策略,就得获得全面的信息,对对方有更多的了解。参与者只有掌握了准确、全面的信息,才能做出准确的判断。信息在博弈中占有如此重要的地位,能左右博弈双方的输赢。信息是博弈的四大要素之一,是参与者做出准确判断的依据。但是在有的博弈中,我们能完全掌握对方的信息,还有很多时候我们并不知道,或者不完全了解对方的信息。基于对其他参与者的信息掌握程度,博弈可分为完全信息博弈和不完全信息博弈。完全信息博弈是指博弈中对其他参与者特征、利益、可能选择的策略等信息都有一个准确的了解。如果对其他参与者特征、利益、可能选择的策略等信息没有一个准确的了解,或者有多个参与者的情况下,只对个别参与者的信息了解,这两种情况的博弈便是不完全信息博弈。信息还可以分为私有信息和公共信息当你掌握的信息属于私有信息的时候你该做出什么样的决策?当你掌握的信息属于公共信息的时候,又改做出什么样的决策?
㈣博弈的分类
博弈分为合作博弈和非合作博弈。合作博弈并不是指参与者之间有合作的意向,或者合作态度,而是参与者之间有具有约束力的协议、约定或者契约,参与者必须在这些协议的范围内进行博弈。非合作博弈是指参与者在博弈的时候,无法达成一个对各方都有约束力的协议。合作博弈是研究合作中如何分配利益的问题,目的是使得协议框架内所有参与者都满意。而非合作博弈的目的是如何为自己争取最大化的利益,并不考虑其他参与者的利益。
㈤博弈的结果
博弈的结果分为两败俱伤和双赢。两败俱伤是博弈中最坏的一种结果,每一位参与者的收益都小于损失,都没有占到便宜。两败俱伤属于负和博弈。正和博弈就是参与各方本着相互合作、公平公正、互惠互利的原则来分配利益,让每一个参与者都满意的博弈。零和博弈中一方有收益,另一方肯定有损失,并且各方的收益和损失之和永远为零。
㈥调解离不开博弈
1.调解就是一个博弈的过程。

人与人之间的沟通过程其实质就是一种心理的博弈。博弈其实也是操纵与反操纵,影响与被影响,改变与被改变。在调解过程中,调解人员在调解过程中天然处于主导地位,如何做到不被操纵、影响或者改变,亦或是在影响、改变别人,从而让双方当事人达成协议则就看各自本事。对于调解人员来说,对于同样一件事情,用不同的策略来解决,得到的结果便不同。调解中调解人员对于博弈论的核心是寻找解决问题的最优策略;调解人员认为的最优策略所产生的结果对于当事人来说是一种次优结果。调解阶段,对于当事人与第三方而言,调解阶段博弈的前提体现为大多数当事人处于信息不完整或信息不对称的状态。
2.博弈策略。博弈策略是指每个博弈方在进行决策时可以选择的方法、做法等。博弈策略分为纯策略和混合策略。纯策略是指参与人在博弈中可以选择采用的行动方案;混合策略是在纯策略空间上的一种概率分布,表示参与人实际进行决策时根据这种概率分布在纯策略中随机选择加以实施。虽然制定策略需要考虑到对方,但是策略的选择依旧有一定的规律可循。策略的选择一般有两个行动准则:一是寻找并应用优势策略,二是寻找并避免劣势策略。
3.博弈结果。双方当事人达成的调解协议本身就是双方博弈的结果,协议内容是否超出诉求请求、超出多少则就体现了调解人员在调解过程中是否体现了公平公正合理原则。
4.调解博弈的精髓:一是积极主动地行动,理性的分析局面;二是让别人按照你的意志行事,使当事人利益达到次优结果(结果不是最好也不是最坏);三是决策时必须考虑对手对你的策略做出的反应。
5.如何运用博弈论?换位思考!即站在别人的立场上去分析收益。只有这样才能了解对方有哪几种可能的策略,采用哪一种策略的可能性最大,从而作出正确的决策。这也就是我们常说的知己知彼。一是向前展望,倒后推理。即首先确定自己希望最后达到什么目标,然后从这个结果倒后研究,找出自己现在应该作出哪种选择,才能以最低的代价达到既定的目标。二是不要选择严格劣势策略,理性选择导致次优的结果。三是换位在换位。不仅仅是说你要考虑博弈中的第二层面,还表示了你要比对手都多考虑一个层面。即不仅要站在别人的立场上思考别人的收益,还要考虑对方在此博弈中的老练程度,以使你总比博弈者高深一层。
二、纳什均衡
纳什均衡是指在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
三、囚徒博弈
在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的"囚徒困境"博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。
囚徒困境博弈
A╲B 坦白 抵赖
坦白 8,8 0,10
抵赖 10,0 1,1
对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择"坦白"总是最优的。显然,根据对称性,B也会选择"坦白",结果是两人都被判刑8年。但是,倘若他们都选择"抵赖",每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。但是,"坦白"是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡,即纳什均衡。不难看出,此处纳什均衡与帕累托存在冲突。
单从数学角度讲,这个理论是合理的,也就是选择都坦白。但在这样多维信息共同作用的社会学领域显然是不合适的。正如中国古代将官员之间的行贿受贿称为"陋规"而不是想方设法清查,这是因为社会体系给人行为的束缚作用迫使人的策发生改变。比如,从心理学角度讲,选择坦白的成本会更大,一方坦白害得另一方加罪,那么事后的报复行为以及从而不会轻易在周围知情人当中的"出卖"角色将会使他损失更多。而8年到10年间的增加比例会被淡化,人的尊严会使人产生复仇情绪,略打破"行规"。我们正处于大数据时代,想更接近事实的处理一件事就要尽可能多地掌握相关资料并合理加权分析,人的活动动影像动因复杂,所以囚徒困境只能作为简化模型参考,具体决策还得具体分析。
四、智猪博弈
假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,在去往食槽的路上会有两个单位猪食的体能消耗,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时行动(去按按钮),收益比是7∶3;小猪先到槽边,收益比是6∶4。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。
“智猪博弈”由纳什于1950年提出。实际上小猪选择等待,让大猪去按控制按钮,而自己选择"坐船"(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪选择等待的话,小猪可得到4个单位的纯收益,而小猪行动的话,则仅仅可以获得大猪吃剩的1个单位的纯收益,所以等待优于行动;在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动。
用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择:
小猪
大猪 行动 行动 等待
等待 5,1 4,4
9,-1 0,0
从矩阵中可以看出,当大猪选择行动的时候,小猪如果行动,其收益是1,而小猪等待的话,收益是4,所以小猪选择等待;当大猪选择等待的时候,小猪如果行动的话,其收益是-1,而小猪等待的话,收益是0,所以小猪也选择等待。综合来看,无论大猪是选择行动还是等待,小猪的选择都将是等待,即等待是小猪的占优策略。
在智猪博弈中,虽然小猪的"捡现成"的行为从道义上来讲令人不齿,但是博弈策略的主要目的不正是使用谋略最大化自己的利益吗?
当你处于明显劣势的情况下,等待是最好的策略,但是要注意对方的想法是否跟你一样。
五、猎鹿博弈
猎鹿博弈又称安全博弈、协调博弈,或者猎鹿模型。猎鹿博弈源自一则故事,即在古代的一座村庄里,住着两个猎人。而这个村子里主要有两种猎物:鹿和兔子。假设一个猎人单独外出捕猎,只能捕到4只兔子;然而,如果两个猎人同时出动且合作就能捕到1只鹿。而站在填饱肚子的角度看,他所捕到的这4只兔子能够成为他4天的食物,但是1只鹿足以让他在10天内都不用外出捕猎。如果双方合作,利益大于单独行动。但前提是双方能力平等,并且相互信任。
六、枪手博弈
有三个枪手,第一个枪手A的命中率是80%, B是60%,C是40%。他们同时举枪瞄准、同时射击另两个人中的一个,要尽可能消灭对手,每个人一次机会,一颗子弹,目标是努力使自己活下来。谁活下来的可能性最大?如果你认为枪法最准的A胜出,那么你就错了。
我们来看,如果你是A,你毫无疑问的会瞄准对你威胁最大的B,而B也会瞄准对他威胁最大的A,而C则也可能瞄准A,那么三个人存活的概率都是多少呢?
A = 100% - 60% - (1-60%)* 40% = 24%
B = 100% - 80% = 20% (因为命中率为80%的A在瞄准他)
C = 100% (因为没有人瞄准他)
原来,枪法最不准的C竟然活了下来。
那么,换一种玩法呢?如果三个人轮流开枪,谁会生存下来?
如果A先开枪的话,A还是会先打B,如果B被打死了,则下一个开枪的就是C,那么此时A生存的概率为60%,而C依然是100%(他开过枪后A没有子弹了,游戏结束);如果打不死B,则下一轮在B开枪的时候一定会全力回击,A的生存率为40%,不管是否打死A,第三轮AB的命运都掌握在C的手里了。
那么,如果游戏规则规定必须由C先开枪,如果你是C怎么才能让自己活下来呢?答案是胡乱开一枪,只要不针对AB任何一人即可。当C开枪完毕,AB还是会陷入互相攻击的困境。如果一开始就把自己的全部实力展现,容易陷入危险。实力最差的可能更能生存下去,因为容易被人忽视。
七、警察与小偷博弈
在一个小镇上,警察随机在A处或者B进行巡逻,小偷在并不知道警察的选择的情况下要去A处或B处偷窃,这便是警察和小偷之间的博弈。在此博弈中,博弈者双方的选择都是随机的,并且不一定存在最优策略。
在我们此前介绍的最典型的囚徒博弈中,虽然同样是不知道对方的决定,但对其中一方来说是可以制定最优策略——坦白,尽管在双方的最优策略下形成的是一个差的纳什平衡。但在警察和小偷的博弈中,假设双方去A、B处的几率一样,那么当一方去A处,另一方去去A处则小偷被抓,去B处则小偷不会被抓,反之亦然。也就是不论对方的选择为何,博弈者都有可能获得好的结果和坏的结果。
因为博弈者之间的利益是冲突的,所以不存在双赢和双输的局面。为了使自身获得高利益的可能性不被降低,博弈者应该:不要让对方知道自己的决定。如果小偷知道警察在哪处巡逻便会避开这个地方让警察扑空,而警察如果事先知道小偷的目标就可以提前布局、瓮中捉鳖。所以一旦决定被对方知晓,博弈者就会处于不利地位。
在此重复性的博弈中,制定混合策略,随机选择,让对方捉摸不透。重复性博弈的情境是大致一样的,如果博弈者的决策有规律可循,对可根据以往的信息推断其本次最有可能的策略,从而对此制定相应的最优策略以达到他的最大化利益。当然,这也有可能只是一个陷阱。只有让对方无法知晓或者错判我们的策略,使其做出错误的决定,才能使我们更可能获得利益。当对方了解到自己的策略倾向时,自己便会面临极大的输掉游戏的风险。我们每个人在做决策时,不会太在意自己的决策,我们要做到找出自己要做的策略,并且让对手觉得不会影响到他们。
八、斗鸡博弈
两只斗鸡在决斗的时候,无论选择进或退都是一个难题,因为纳什均衡已经给出了一胜一败的最优策略。在很多较量下,死拼将是得不偿失的,因为很可能给第三者机会。因此,两个已经在战场的强势力很可能自觉的遵循纳什均衡,当一方攻击时,另一方暂退。虽然可能某方暂时受损,但较之于两败俱伤是好得多的。不过,要维持这一状况,必须保证下一次先期受损的一方发动攻势的时候,另一方同样的后退。于是这样的攻击性行为开始变得“仪式化”,没有人真正流血。这只不过是两个巨头玩弄的游戏,目的是警告后来者,想进来,那么也得陪我们一起玩,可是你玩的起么?
九、海盗分金博弈
㈠海盗分金
有五个海盗(记为1、2、3、4、5号)掠得一百枚金币,决定以抽签的方式依次提出分金方案,并由五人共同表决。要想通过方案,必须有超半数的人同意才可以,否则这个人将会被扔进大海。这其实是一个博弈的过程,在分金的过程中,要想不被扔入大海,必须充分考虑其他人的利益,从而以最小的代价获取最大的收益。如果自顾个人的利益,很难生存下去。舍去部分利益,可能获得更多的利益。
㈡蜈蚣博弈
一个双人博弈,两人轮流行动,轮到一方时有两种选择:不合作,博弈将直接结束,直接获得收益P;合作,博弈将继续进行,且轮到对方选择。如果对手选择不合作将结束博弈,玩家将会获得一个稍微低于P的收益,但如果对手也选择继续博弈,该玩家将在之后的博弈中获得一个高于P的收益。随着博弈的不断进行,两玩家的收益之和将越来越高。博弈进行有限轮,若两玩家一直选择合作,两人最后的收益相同。蜈蚣博弈的机理是以最终的结果倒退至开始。这是一个睿智的策略,因果相报,把握好因缘,自有好结果。它的另一个好处,就是使得未来的计划明晰化,你不再徘徊。蜈蚣博弈也有一个致命的悖论,仍旧是个人利益和集体利益的冲突,因为最后一次的背叛收益始终优于合作。
㈢公地悲剧
有一片公共牧场,所有牧民都可以在这块牧场上放牧。但每个牧场的草,都是有容量上限的。一开始所有牧民都商量好,每家放5头牛,不许多放。几天后,有几个自私的牧民,多放了几头牛。其他人很气愤,他们想:我守规矩有什么用,草地早晚要被其他人糟蹋完的,不如我多放几头。于是,越来越多的牛出现在草地上,最后,草场退化,牛群饿死。这就是“公地悲剧”。公地悲剧其实随处可见,比如环境污染、过度海洋捕捞等。
推荐:刘庆财编著《博弈论》,北京联合出版公司2020年9月。