【游戏泛论2】初谈博弈
在本文中,我们来谈谈博弈。
从汉语的字义上来看,“弈”,对弈,这个词会用来描述下棋,而“博”这个字加在其前,可以理解为对后者的形容,代表一种广博、广泛的思维。
之前我曾提到过“游戏理论”这个东西,而将它直接翻译为英文其实就是“Game Theory”,在英文中指的就是“博弈论”,因此不难理解,它其实就是一种有关游戏的理论。

合作与背叛
那么有关博弈,最著名的就是“囚徒困境”,你可能也听说过,也就是关于两个囚徒在招供和保持沉默之间的选择。
不过,我们这里不谈“囚徒困境”,而是来谈谈普遍意义上的合作与背叛,囚徒困境本来讨论的也就是双方在合作和背叛之间的选择。
对于这个博弈,我们先这样假设,A和B两个人,每人都有两种选择,即合作或者背叛,那么假设我是A,那我应该去做出两个之间能够让我获益更多的选择,那么我在这两个选择中选择哪一个就需要思考了,去权衡了,对吧。
同时,很显然,我获益多少不仅仅取决于我的选择,也和对方的选择是相关的,
那么每人两种选择,2*2,总共就有4种情况,这样我们就可以列一个表格,然后分别在这4种情况下,对我以及对方的收益进行评估。


先考虑A和B都选择背叛的情况,由常识去想一想,两边肯定都讨不到好处,那么我们假设他们的收益都为0,为了方便,我们写成(0,0)这样的形式,前面代表A的收益,后面代表B的收益。
进一步,合作往往是共赢的,那么我们认为收益是(1,1)。
那么一边背叛,一边合作呢?首先,既然存在背叛,那么说明其中往往是有利可图的,那么背叛成功的收益往往会比合作来得大,比如2;同时,被背叛的人他的损失往往也比互相背叛的损失大,我们认为是-1。
因此这样一个表格就出来了。

那么,根据这个表格,我作为A应该合作还是背叛呢?我们作一个简单的思考:如果我觉得B会背叛,那么我肯定也会选背叛,因为我合作是-1,背叛只是0;如果我觉得B会选择合作,那么我更应该选择背叛了,因为我背叛能拿2,合作只能拿1。
这样看来,我们不管怎么样都应该选择背叛;或者说,背叛对A来说是一个优势策略,而合作是一个劣势策略。
当然,由于对称,对B来说也是如此, B也更可能背叛,那么A也就更应该选择背叛了。
但是,这个结论没有问题吗?
对于这张表格,的确没问题,就是应该选择背叛。
这种思考方式也正是这种表格法的优势所在,对于这些类似的问题,我们在一般情况下更多的是去依赖自己的感觉去行事,比如感觉对方大概率会作出什么选择;但对于这些在一定程度上能够写出明确收益的博弈,我们列出这样一个表格来具体分析在某些时候的确能够作出结果更好的判断,是更具有实用性的。

博弈理论与现实的冲突
反过来看,这个结论在实际情况下当然是存在一定问题的,难道现实中没有人会选择合作吗?选择合作的人都是蠢吗?显然不是。
原因在于,我们在评估收益时,只考虑了双方在金钱上的收益,而完全忽略了在现实中,对其他方面的有必要的考量,或者说,我们考虑得既不周到,也不长远。
比如,现实中,我们还会考虑维持长期合作所带来的好处,选择背叛时还需要考虑失去合作伙伴所带来的损失,因此这么来看,很多人也会倾向于合作;再比如,还是之前说过的,我自己也从了很多方面去考虑后,才决定写不写下这些想法,这也是同样一个道理。
也就是说,在上面那张表中,我们对这四种情况的片面的评估不一定符合现实。
那么接下来,我们尝试在金钱之外逐渐加入其他的考量再来看这个表格,我们先假设合作的收益实际上会更高,因此我们把表中双方都选择合作时的收益+1。

再拿和上面同样的思路来看:如果我觉得B会背叛,那么我肯定也会选背叛,因为我合作是-1,背叛只是0;如果我觉得B会选择合作,那么我背叛和合作都能拿2。
照这么分析,背叛还是一个优势策略,合作还是一个劣势策略。
但区别在于,我们直观上可能就不会这么去想了。
回想一下之前我们得到表里那些数据的思路历程,有这样一句话:“既然存在背叛,那么说明其中往往是有利可图的。”但这张表里,背叛成功和互相合作都是同样的拿2,如果继续按照这种思路,我们其实没有理由去背叛,那为什么现实和理论在这里又不匹配了呢?
因此我们尝试再把这个收益加大,来看得更清楚一些。

但事实上,即便背叛不再是优势策略,还是会有人选择背叛。
这可以从两个角度去解释:
第一,人与人之间的价值观不同,
我们在进行这个直观上的思考时,有一个预设被我们默认了,即:我们总是默认无论是我们自己还是对方,都“应该合作”,基于这个预设,我们才会去想“我单方面去背叛会不会更好”。
但不是所有人都是这么想的,出于价值观等等的影响,有些人会从背叛出发,那么我们尝试用他们的思路去思考,他们会去想“我单方面去合作会不会更好”,那这样分析下来,他会选择背叛也无可厚非。
再从结果上来看,共同合作对双方而言都是比共同背叛要好的,这其实也再一定程度上说明了为什么我们普遍会认为合作是一种良好的道德品质,它在这张表中就是如此表现的;很多道德品质之所以会是道德,之所以能够被一代一代传递下来,其实都不是没有道理的。
反过来说,社会上也总是存在一些道德水平较低的人,这也能说明不少人的确会选择背叛。
那么再来看最开始那张表,在这张表中,背叛对于两个人各自,的确都是最好的选择,但如果假设我们都非常无私,都会考虑我们的收益总和,那么表格就会变成这样:

合作就变成了优势策略,这可能也是很多人心中理想社会的样子,或者也能说,背叛这个选项就直接没有了,几乎不会存在。
换个角度来看,如果说这是群体意识、或者说社会的一种思考方式,那么我认为它也的确会向着这个方向前进,对吧。
回到原来那个问题,第二个角度来看,是因为你思考得到的表格和别人思考得到的表格是不一样的。
两个囚徒,在考虑要不要供出对面的时候所考虑的东西可能是完全一样的吗?在上面的表格中,我们都默认了A和B是处于完全相同的境遇,也因此这些表格中的数据是完全对称的,但实际上这是不可能的。
或者说,就算两个囚徒都用了这个方法去考虑自己和对方,那么他们所得到的表也是各自的,而不是一个共同的表,以及他们各自表中的数据也一定是有所差别的。
比如,其中一个主要怕对方的报复,因此倾向于合作,希望他也选择合作,另一个主要觉得对方对自己怀恨在心,大概率会选择背叛,因此也选择了背叛;
结果上来看,后者赢了,符合我们之前的分析,但却是歪打正着,我们之前基于表格法的片面分析实际上和真实的原因毫无关系,它可以被认为没有起到任何的作用。
再者,如果我们把自己代入到囚徒中,至少是我,第一时间也会倾向于考虑合作,虽然实际上背叛才是最好的选择,而囚徒困境的这种所谓反直觉,其实很大程度上不是因为我们没有用这种表格法去思考问题,而是因为我们无法很好地代入囚徒这个身份;它离我们比较遥远,我们下意识中也会对牢狱之灾产生一些抗拒,因此只有相互合作带来的证据不足,无罪释放才是我们唯一可接受的,而坐牢无论多久,在我们心中都是坐牢,都是不可接受的,因此我们下意识才会直接否定背叛这个选项。
再举个例子,我和他人有这样一个博弈,表中的收益指金钱数:

那么按照和之前同样的分析方式,1对B来说是优势策略,因此如果B选了1,那么我也选1才能获得更高的收益。
但我一定会愿意冒-6这个风险吗?或者说,我承受的起这个小概率事件吗?对方有没有可能损人不利己?万一呢?
再考虑得多一点,假如我全部身家就7万块,那这个-6代表的收益实际上在我心中就应该是-999了,或者说,我其实根本不会考虑1,对我来说根本不存在1这个选项。
上面这些例子,都可以说明同一个事实,也就是:上面这些表格是对现实中“合作与背叛”这个复杂问题的一种很大的简化,这种表格法不能被直接用于处理复杂的实际问题,甚至可以说是在很大程度上脱离实际的。
这也是我们对“囚徒困境”存在的一个曲解。由于它的广泛传播,我们会倾向于认为,似乎用其中体现的这种思维去处理实际问题才是最正确、最理性的,但实际上我们从上面的例子中也可以看出,其中对收益的评判太过简单和片面了,或者说,恰恰相反,从这一点上来看,我们所使用的正常的、平时的思路才是更好的,才是一种多角度的思维。

完全信息
而根本原因在于,这种表格法把实际情况简化为了一个 “完全信息博弈”,它假设了双方各自所认为的表格中的所有内容刚好是完全相同的,并且他们也知道对方的表格和自己是完全相同的。
你可以理解为,我画了这样的一个表格,并且同时给A和B看,让他们通过分析各自在这张表格中选,来使自己获得尽可能高的收益,他们之间的这种博弈就叫“完全信息博弈”。
但很显然,现实几乎不存在完全信息博弈。我们对于他人的处境、价值观等等的了解总是有所缺乏的,这实际上也是一种常态,本就不可能有两个人互相完全了解。
因此在这个表格中,对方的某些收益可能对我们是未知的,对方的某些选择我们也未必能够想得到,等等。
那么我们反过来想一想,现实中怎样的情形才是最接近“完全信息博弈”的?
不难理解,我们评判收益时所需要考虑的角度越少、越客观,那么两个人的想法才可能越贴近,两人之间的博弈才越接近“完全信息博弈”,比如在公开透明的市场下两个企业的竞争,它们几乎只需要把金钱当作表格中的收益值,并且它们也基于共同的公开的市场信息去分析的,这也是为什么博弈论会用于经济学。
换句话说,这个表格既然基于了“完全信息博弈”的前提要去处理现实问题,那么这个现实问题就一定不能是复杂和多维的,但现实中的问题往往就是复杂和多维的,因此其中显然是存在矛盾的。
那么既然如此,我们应该如何正确看待这个表格法呢?
在我看来,这种表格法更多的只是为我们提供了一种看待问题的思路。
对于一些复杂的问题,我们在对其某些方面考量时思路不清晰的时候,我们可以基于这一个或两个、或者相对少量和简单的因素去列表,去评判收益,去进行简单的分析,从而能够帮助我们作出判断,但在最终作出判断前我们依旧需要进行多方面的考虑。
在最开始这个表格中,我们知道那样分析下来,背叛是最优的选择,但同时,我们也明白表格中所表示的收益只基于了对金钱的单方面的考量,因此我们最终完全可能会选择合作。


游戏中的博弈
那么,既然这种表格法运用于现实比较难,那对于可能在我们眼中会显得少复杂一点的游戏而言,它的实用性足够吗?
当然不够,甚至在游戏中,这个缺点更加凸显了。
举例来说,英雄联盟中我方闪现与敌方闪现之间的博弈:假设敌方剩下丝血逃回塔下,我残血追击敌方,并且我除了闪现向前补伤害没有任何其他方式击杀敌方,并且如果我选择闪现,敌方除了在同一时刻也闪现没有任何方式可以避免自己的阵亡,并且由于天赋点的凯旋,如果我成功击杀了敌方,那么回血之后的我才不会被防御塔击杀。
综上,在这个时刻,博弈大致是这样的:

且不说我已经作出了这么多的预设,已经把复杂的游戏情况简化到一定程度了,但其中的收益依然需要多方面的考虑。
“我方死亡”的情形下,如果我预先考虑到我有传送,并且不认为我少一个传送会被敌方很好地利用,那么在我眼中风险就会变小,我就会更愿意去赌。
“敌方死亡”的情形下,如果我预先发现了敌方打野的位置很近,并且这波线如果我不推就会卡在敌方塔前,那么收益就没那么大了,甚至我还有可能被对面打野击杀,于是我可能就会不太想去赌。
“赚到了一个闪现”的情形下,那收益还取决于我以及我的队友能不能很好地利用这一点,甚至在这个过程中还可能存在不可预测的突发情况;另外,比如敌方也察觉到了这一点,如果被反制成功,我的收益甚至还是负的。
“敌方成功逃生”的情形下,那么我也同样需要考虑他的传送,以及兵线等等许多因素,才能作出更好的对收益的评判。
更不用说在一般的追击情况中,我还需要考虑比如敌方的位移技能,以及其大概的冷却时间,敌方的保命技能是否还在,敌方是否有反击的可能性,以及我自己的位移技能冷却时间是否能够在敌方进塔前冷却好,实在扛塔的话能不能扛得住,能不能省技能,拖太久对方队友是否比我方队友来得快,甚至考虑敌方是否在假装自己的队友要到了等等等等。
当然,具体问题具体分析,我不可能列举所有我能想到的情况,况且也还会有很多我想不到的特殊情况。
再举几个英雄联盟中的例子,比如打野开局两波野的路线,以及视野上的一些博弈,以及抓人、反蹲、刷野三者之间的选择等等,并且这些都需要基于各条线上的实际情况;
还有,对于远距离出钩,中距离出钩,近距离出钩,出钩人和目标之间都可以构成不同的博弈,更广泛一点,就是普遍上的走位和预判之间的博弈;
以及,我之前提过的拉扯,近战和远程之间的拉扯,同射程拉扯等等还有许多各种情形,都可以分别看作博弈;
拼惩戒,这当然也能被看作是一个博弈;
当然,对线中肯定也充满了博弈,只是我在这里不太方便举具体的例子,就比如最常见的,剑姬w作为格挡技能和对方一些控制技能之间的心理博弈;
再从整局上来考虑,banpick或者说ban选,这个不用多说,自然是一种博弈;
还有,比如基于队友的水平高还是低,可能会选择有所不同的打法,这也是一种博弈。
另外,队友之间的配合也能被看作是博弈,比如,最基本的,辅助有某些技能可以保ad,那么ad面对一些威胁就可以少交技能,但如果辅助水平不够,ad不交技能自己就死了,但如果辅助可以做到,那么ad交技能又浪费了,甚至是亏的。
以上这些,如果你英雄联盟确实玩得比较久,那这些其实都是很常用的思路。
当然,还有其他许多类型的游戏可以拿来举例,比如格斗游戏、FPS游戏等等,其中存在的博弈也都是相似的,这里就不赘述了。

游戏中的博弈较于现实中的博弈
那么,我们可以发现,相比我之前所说的偏现实的一些例子,为什么在游戏中我对于这种多方面的评判更加详细?为什么我能够相对具体地说出一些原因,而不是像前面一样仅仅笼统地用一些数值来表示?
甚至,从上面那张表中,我们还能比较容易地意识到,其中的有些收益可能还会依赖于其他某些博弈的结果。
原因很简单,第一,现实远比游戏复杂,就从人数和时间上来看,一把游戏无论如何也无法和人生的复杂度相比。
第二,我第一次过我的人生,但我一个游戏可能已经玩了几百几千次。
前者我们无法回头,但在游戏中,我们可以通过重复,去积累经验,不断进步,不断加深理解,不断完善最终的结果;或者说,我们在重复中,对于信息的收集越来越完全,对于信息的处理越来越细节化,对于游戏这个不完全信息博弈,我们逐渐在补全那些前几次不能够认识到的未知的信息,逐渐地在走向完全信息博弈。
因此,我能够比较肯定地去分析你在一局游戏中的某些决策是好是坏,原因是什么,对后续的影响是什么,但我没有能力去很好地评价你在现实中的某个决策对于你的人生目标是好是坏,因为“未来充满着无限的可能性,没有到最后一刻谁也不知道会发生什么”,这句话的确说得没错。
那么回过来,无论对于现实还是游戏,这种表格法似乎都很难很好地解决问题;或者换个角度来说,我也不觉得看过了我到现在为止写下文字的读者,他的游戏水平就能提高很多。
于是,是否有一种更好的思路,或者说一种更完善的理论,能够帮助我们更好地去处理这种复杂性,去处理多方面对收益的评判呢?
在最开始的时候,我们提到了“弈”这个字可以被解释为下棋,那么我们尝试想想象棋和围棋,可以发现它们和我上面谈的这种博弈其实区别还是比较大的,比如,在这些棋类中不存在双方同时做出选择的情况,它们的选择还存在时间上的先后关系等等。
但是,既然它们都能够被称为博弈,那么它们之间一定存在某些关系、某些相似点,我们会在下一期接着来谈这个问题。

纯策略和混合策略
此外,既然谈到简化,我在这里略微提一下纯策略和混合策略。
什么是纯策略呢?对于之前的那些表格,要么合作,要么背叛,我们只能做出一个选择,这就是纯策略,我们前面说到的就都是纯策略。
什么是混合策略呢?
对于一组足够多并且完全相同的博弈,我们引入概率的思想,如果我能确定对方两个选项各自的概率,那么在这些博弈中,我以比如某个概率选择合作,以某个概率选择背叛,在理论上才是收益最高的,而这种策略就被称为混合策略。
举个例子,比如投资,我总共20000块,通过一些数据分析显示,我在这边投资13000块,在那边投资7000块,并且这种混合的策略在理论上比纯策略,比在一边all in,能达到更高的收益。
然而,这类场景具有更大的特殊性。
首先,它依旧是基于了完全信息博弈;其次,在这之上,它又加入了额外的限制,或者说,进行了进一步的简化:它要求了这些博弈是足够多的,并且完全相同,并且它们互相独立,不互相影响。
不难理解,在现实中,我们可以认为不同时的博弈之间一定会互相影响,所谓“蝴蝶效应”也就是在说这个道理,因此适用于这种理论的现实场景中,这些博弈几乎也一定是同时的;也因此,这种混合策略的思想就更局限了,几乎只在一些统计的方面存在实用性。
换个角度来看,在现实中,我们做出的行动就都可以被认为是纯策略,做了就是做了,没做就是没做。
综上,这些理论和方法之所以很难有实用性,可以说根本上就是因为它们将复杂问题过度简化了,因此在下一期,我们会尝试思考它们是如何由现实简化而来的,并将它们拓展为更具有实用性的一些形式。