博弈与进化
上两篇文章讨论了西方心理学中的自我概念和集体概念,我们看到西方认定的自我是孤立的、理性的个体,而西方的集体是个体遵从理性,按照共同信念组成的。然而,如果个体是理性的,且个体之间的合作只能依靠个体让渡部分权利建立的政府来监督,那么个体就应该只要不被发现就尽可能占别人便宜。可如果人人如此,集体就无法维持了。于是,孤立的、理性的陌生人之间如何达成合作,组成集体就成为了一个问题,而博弈论(game theory)、行为经济学(behavioral economics)和进化心理学(evolutionary psychology)正是对这个问题的回应。
在讨论个体间的博弈之前首先需要对理性个体的决策过程做一些讨论。首先,从启蒙时期开始,西方思想就普遍认为所谓理性就是最大化个人利益,且这个利益是以金钱为衡量的(当时是贵金属本位货币,是真正的“金”钱)。其次,理性追求确定性(certainty),而现实是不确定的(uncertain),比如我不知道借钱给哥们儿他能不能按时还,我不知道买的股票会不会跌,我不知道自己吃饭会不会噎死,等等。因此,理性的个体在追求自身利益最大化时不得不考虑客观世界的不确定性。那么,基于上述两个条件,理性的个体该如何决策呢?
最直接的是期望价值理论(expected value),即针对每一个选择写出所有可能的结果和每个结果出现的概率,对其求数学期望,以这个数学期望作为价值指标,选择期望价值最高的选项。例如,A选项100%能获得100元,B选项有90%的机会获得200元,10%的机会失去100元,那么A选项的期望价值就是100元,B选项的期望价值就是170元,显然理性的人会选择B选项。这似乎只是初中数学题,但学者们很快就发现了问题。想象一下这么一个游戏:扔一枚硬币,第一次正面朝上获得2元,第二次正面朝上获得2的平方元,第n次正面朝上获得2的n次方元,直到扔出反面为止,你愿意花多少钱参与这个游戏?很容易算出这个游戏的数学期望是无穷大,那么理性人就应该投入全部身家到这个游戏中去,但显然没有人会这么做。
这一思想实验最早由数学家伯努利提出,被称为伯努利悖论。为了解决这一悖论他提出金钱的客观价值和人体验到的主观价值是不同的,后者被称为效用(utility),且价值和效用之间的关系不是线性关系,而是向下弯曲(如下图所示),即已有的价值越高,新增的价值带来的效用就越小,这被称为边际效用递减(diminishing of marginal utility)。这也是符合常识的,比如肚子饿的时候第一个馒头吃得特别香,第二个就没那么香了,第三个就撑了。类似的,当口袋里没钱的时候拿到100块就觉得特别珍贵,已经有100块了再拿到100块就没那么高兴了。心理学出身的读者很容易发现这就是实验心理学中经典的韦伯率(Weber’s law),即物理量和心理量之间是对数关系。由于边际效用递减,伯努利悖论中的游戏的期望效用(expected utility)并不是无穷大,而是会收敛到一个固定值,从
而解决了这一悖论。

到了上世纪70年代,心理学家Kahneman和Tversky(1979)对期望效用理论做出了修正,创立了前景理论(prospect theory),也创立了行为经济学。首先,他们提出得失的效用是不对等的,损失一块钱的效用要大于得到一块钱的效用,这叫做损失厌恶(loss aversion)。如下图所示,损失侧的效用曲线要比获得侧的更陡。其次,得失的判断受到参照点(reference point)的影响,比如广告词说“买到就是赚到”和“不买你就亏了”给人的感受是不一样的,这叫做框架效应(framing effect)。最后,主观体验的概率与客观概率也是不同的,小概率会被高估,人们会觉得0.01%的概率也能赌一把,而中等概率会被低估,人们会觉得50%的概率不够保险(见下图)。值得一提的是他们使用的研究方法就是实验心理学的心理物理法,即当年得到韦伯率的方法。

现在我们把个体的理性决策扩展到个体之间的互动上。首先来看合作的情况。由于边际效用递减,个体间的商品交换会同时增加双方的效用,这被称为帕累托改进(Pareto improvement)。例如,A有很多苹果,B有很多梨,A用苹果换B的梨,此时A损失苹果的边际效用很小,而获得梨的边际效用很大,对B则相反,因此交换后双方的效用都增加了,简单来说就是通过贸易互通有无,这对双方都有利,因此是一种合作关系。现在假设市场上有很多个体相互交易,直到最终达到均衡,不能再通过交换增加效用,这种均衡被称为帕累托最优(Pareto optimality)。帕累托改进要求在不减少任何一方的效用的情况下增加总效用,而减少一方的效用以增加总效用是可能的(即劫富济贫),但帕累托认为这个决定无法从理性得出而只能是个政治决定,这被称为帕累托不可决定(Pareto undecidable)。现代许多行为经济学游戏和模型是基于帕累托改进的,但帕累托在设计模型时有意排除了个体间的比较,有些行为经济学家也试图把公平、嫉妒等人际比较加入到模型中(如Wobker & Kenning,2013)。
帕累托改进仅仅考虑了个体间合作的情况,但个体间还存在背叛的可能,比如在商品交换过程中以次充好,弄虚作假,囚徒困境(prisoner dilemma)讨论的就是这个问题。在囚徒困境中双方都有两个选项:合作和背叛。双方都选择合作可以同时增加双方的效用,即帕累托改进;当一方合作一方背叛时合作者将承受损失,而背叛者将获得更大的收益,相当于在商品交换时一方以次充好,占了对方便宜;当双方都选择背叛时双方都会承受一个小损失,相当于交易失败,双方各付出了一点时间成本和机会成本。下图就是一个囚徒困境的支付矩阵。从中可见不论对方选择合作还是背叛,玩家选择背叛都能给自己带来更大的效用,因此理性的玩家应该一直选择背叛,这一状态就是纳什均衡(Nash equilibrium)。

既然在双方博弈中个体理性的选择总是背叛,那么个体间是如何实现合作的呢?或者说,合作行为是如何被进化选择的呢?首先能想到的是基于亲缘关系的合作。现代进化理论是基于基因的进化(Dawkins,1976),而一代血亲与自我共享50%的基因,二代血亲共享25%的基因,以此类推。因此,基于自私的基因个体间应该按照共同基因的比例进行合作,这就是内含适应性模型(inclusive fitness model,见Taylor,1992)。基于亲缘关系的群体毕竟是有限的,没有血缘关系的个体间如何实现合作呢?单次博弈的囚徒困境中背叛是理性的选择,但在反复博弈中合作就是有可能的了。一种可能是记住对方之前的行为,然后只和合作者合作,这被称为互惠利他(reciprocal altruism,见Trivers,1971),对囚徒困境的计算机模拟也发现以眼还眼(tit-for-tat)是一种成功的策略(Kreps等人,1982)。
互惠利他需要个体间的重复博弈,这在小规模的熟人社会中是可行的。但当群体进一步扩大变成陌生人社会时,个体在背叛后可能会直接消失,再也遇不到,此时就需要其他机制保证个体间的合作。一种方式是让人们获得关于公平的信念,使旁观者在看到背叛行为时对其做出惩罚,正所谓路见不平一声吼,这就是第三方惩罚(third-party punishment,见Fehr和Fischbacher,2004)。注意这里的惩罚是玩家自发进行的而非依靠某个中央政府,换句话说这是公民社会的一种形式。这种行为需要惩罚者消耗一定资源而不会对其自身带来直接的好处,因此是“非理性”的。然而单次的非理性行为在反复博弈中仍然可能是理性的,而进化过程就可以看作是个体反复博弈的过程,这一过程就可能产生进化稳定策略(evolutionary stable strategy,ESS,Buss,1999),这些策略在个体身上就体现为自动化的情绪反应,也就是心理学常说的双加工模型(dual-processing model)。这实质上是一种“双重理性”,即理性的决策是理性的,而非理性的决策是进化过程中“理性”博弈的结果,因而也是理性的。
至此,西方心理学从(部分)理性的个体出发,逐步推出了大型社会的形成,构建了一套完整的理论体系。然而稍有历史社会常识的读者就会发现这套理论是不符合现实的。要理解这个理论体系的产生及其缺陷,我们仍然需要回到历史中去。首先,所谓自利的理性人假设本来就是历史的产物,直到启蒙时期才逐渐成为主流。这种理性与古典时期(希腊、罗马、中世纪基督教)的追求是不同的,古典时期追求的是人在集体中的充分发展成长,是在城邦中获得美德或是在教会中接近上帝。单纯追求个人利益是病态的,耶稣就曾说过骆驼穿过针眼比富人进天堂还容易(马可福音,10:25)。然而随着资本主义的兴起和旧制度的解体,个体被抛进社会,道德(宗教)信念变成了个人内心的东西,公共空间中只需要遵守有限的社会契约,孤立而理性的个体也就此形成了。
然后是价值理论(value theory),即什么是有价值的。早期的重商主义(mercantilism)认为价值来自贵金属,而重农主义(physiocrats)认为价值来自土地。洛克最早提出了劳动创造价值,即劳动价值论(labor theory of value)。前面的文章提到过,洛克在讨论社会契约时认为在自然状态下的人是独立且自由的,而自然界由上帝创造,属于所有人,那么私有财产从何而来呢?洛克就提出,原始的自然物没有价值,只有当人类劳动和自然结合之后才创造出价值,而这也是私有财产的起点。这一理论符合常识,也符合人们的生产生活实践,因而从亚当斯密、大卫李嘉图一直到马克思的古典政治经济学普遍接受劳动价值论。此后,主流经济学为了反对马老师并合理化资本利得,有意识的抛弃了劳动价值论并转向了边际效用理论。
最后是不确定性问题。现代经济学对于不确定性的讨论往往会追溯到凯恩斯,然而凯恩斯自己明确区分了不确定性(uncertainty)与或然性(probability)(见Minsky,1976)。行为经济学家们讨论的是或然性,即事件是随机的,但事件服从某个确定的概率分布,如扔硬币时50%出正面50%出反面,这是一种确定的不确定。凯恩斯则指出现实中的投资者们面对的是既无法确定又不会重复出现,连概率函数都写不出来的事件,即不确定的不确定,而对这些不确定事件的预期又往往对人们的决策有重大影响。例如新中国建立后废除了一切不平等条约,民国的国债自然成了一张废纸。因此,真实的投资者不会像行为经济学模型或研究中那样行事,而是一直生活在对宏观经济的某种预期中,从而表现出某种“非理性”。
这里就需要分析博弈论所讨论的行为到底是什么行为。博弈论常常说自己来自对游戏(game)的研究,并从中推导出了人类一般决策行为的规律,而实际上其描述的是赌博(gamble),或者说金融投机(financial speculation)。读者可以设想一下行为经济学所描述的博弈场景:某人手里有一些钱,面前有一些选项,每个选项都有一些可预期的风险和回报,他需要做出选择。现实中符合这一场景的只有在赌场赌博或是在金融机构配置资产,如决定资产中股票、债券、房产的比例,当然在今天的“发达”金融资本国家这两者的区别并不大。这一过程不是生产过程,也不涉及劳动,而是剩余价值再分配的过程,是投机。因此,这一模型仅仅描述了少数人的某些特殊行为,用以描述人类的一般决策过程是荒谬的。
博弈论与行为经济学的出现与当时的美国社会背景密不可分。1929-1933的大萧条让美国人对于金融行业极度不信任,此后美国政府制定法律、成立机构,对金融投机行为做了严格的限制。然而美国好了伤疤忘了疼,在二战后的岁月里这些监管被逐渐突破。到了1971年布雷顿森林体系解体,美元与黄金脱钩,美国财政赤字持续扩张,美国从顺差国变为逆差国,大量美元涌入华尔街,金融资本最终挣脱锁链,迎来了自己的春天。相应的,在这一时期哈耶克和弗里德曼的新自由主义(neoliberalism)成为经济学的主流,也正是在这一时期博弈论和行为经济学兴起了。新自由主义主张自由市场万能,孤立个体的博弈就能够自动实现均衡,达到资源的最优化配置,而政府的干预完全是多余的。博弈论、行为经济学和进化心理学里的种种讨论正是建立在这一意识形态之上的。
值得注意的是,在博弈论和进化模型中往往先验的假定个体之间是绝对平等的,财富只是账户上的一个数,并不会带来权力。这显然是源自社会契约论的一种想象,现实中并不存在。现实中财富带来的是质的差异,有钱人能调动的资源,能获取的信息都是穷人无法比的,正如股市中散户永远是韭菜。也正因此,边际效用递减在资本市场中是不成立的。同时,博弈论往往假定规则是明确的,而“自然”或“市场”会自动的向参与者兑付回报。然而在真实世界中游戏规则是庄家设定的,最后获胜的永远是庄家,当玩家要获胜时庄家往往会直接修改规则,正如经济危机中霸权国家所做的那样。最后,博弈模型往往会在设定时刻意抹除风险,如公共产品游戏(public goods game),似乎资本会自动增殖。实际上投资永远有风险,有些甚至是庞氏骗局,正所谓你看上别人的利息,别人看上你的本金。
由此可以看到,所谓的大规模社会中的合作问题是一个伪命题。博弈与进化讨论的实际上是少数人的投机行为,而这种行为显然只能在高度发达的社会已经形成,商品和金融市场充分发展的情况下才会出现。那么大规模社会实际上是怎么维持的呢?很简单,通过社会的组织架构,或者说政治。这种架构可以是城邦民主、贵族议会、寡头统治、君主专制,等等。现代国家普遍采用的是文官体制(civil service system),即从平民中通过选拔不世袭的官员,由这些官员治理国家。这一制度源自中国战国时期各国的变法,随着秦始皇统一中国成为定法,经过两千年的发展趋于成熟。西方在现代化过程中有意识的学习了这套体系,1806年英国最先在东印度公司使用,1870年又应用到本国,美国则是在1883年采用了这套制度。当然,不同时期不同国家的制度差异极大,具体组织方式受到生产力、自然环境、历史文化等诸多因素影响,这里就不再展开了。由于新自由主义极度敌视政府,有意的忽略了政府在维持大规模社会上的作用,因此才产生了现代心理学中的各种奇葩研究,比如有的心理学家和人类学家不去研究不同社会的实际组织形式,而是跑去各个文化让当地人玩行为经济学游戏,试图从中发现人
类建立社会的机制(如Henrich等人,2010)。
最后再简单说两句进化。不论是主流的经济学还是进化心理学都认为博弈的结果一定是趋向于均衡态的,比如经济学的一般均衡理论和进化心理学的进化稳定策略。然而,现实告诉我们博弈并不一定趋向于均衡态,而是可能趋向于周期性变化,甚至是突然的剧烈变化。如下图所示,经济周期和经济危机是客观存在的,进化也不是线性的,而是同样会出现周期性和剧烈波动。现代复杂系统理论(complex systems theory)则从数学上呈现了这种情况,并发现现实中的很多现象都符合这一模型(见Prigogine和Stengers,1984)。关于进化还有很多值得讨论的话题,在之后的文章中我还会回到这个问题上来。


本文讨论了博弈问题以及由此衍生出的大规模社会的形成和进化心理学解释。道德是调节社会中个体间关系的重要机制,下一篇文章我将分析西方心理学对于道德问题的讨论。
参考文献
Buss, D. M. (1999). Evolutionary Psychology: The New Science of the Mind. Needham Heights, MA: Allyn & Bacon.
Dawkins, R. (1976). The Selfish Gene.
Henrich, J., Ensminger, J., McElreath, R., Barr, A., Barrett, C., Bolyanatz, A., ... & Ziker, J. (2010). Markets, religion, community size, and the evolution of fairness and punishment. Science, 327(5972), 1480-1484.
Fehr, E., & Fischbacher, U. (2004). Third-party punishment and social norms. Evolution and human behavior, 25(2), 63-87.
Kahneman, D., & Tversky, A. (1979). Prospect theory: An analysis of decision under risk. Econometrica, 47(2), 263-292.
Kreps, D. M., Milgrom, P., Roberts, J., & Wilson, R. (1982). Rational cooperation in the finitely repeated prisoners' dilemma. Journal of Economic theory, 27(2), 245-252.
Minsky, H. P. (1976). John Maynard Keynes. Springer.
Prigogine, I., & Stengers, I. (1984). Order out of Chaos: Man's New Dialogue with Nature. Verso Books.
Taylor, P. D. (1992). Altruism in viscous populations—an inclusive fitness model. Evolutionary Ecology, 6, 352-356.
Tversky, A., & Kahneman, D. (1974). Judgment under Uncertainty: Heuristics and Biases: Biases in judgments reveal some heuristics of thinking under uncertainty. Science, 185(4157), 1124-1131.
Trivers, R. L. (1971). The evolution of reciprocal altruism. The Quarterly review of Biology, 46(1), 35-57.
Wobker, I., & Kenning, P. (2013). Drivers and outcome of destructive envy behavior in an economic game setting. Schmalenbach Business Review, 65, 173-194.