囚徒困境与以直报怨 | 《合作的进化》札记

2020-02-13 19:22 作者:ToBeABooker 0人读过 | 我要投稿

卢梭的社会契约论，就其本质而言，也是想解决人类社会的合作问题。与其说他想在人人自愿基础上达成某种社会合作，毋宁说他是主张以集体理性和社会公意为名义实行个人的专制独裁。
曼瑟尔·奥尔森认为：除非一个集团的人数很少，或者除非存在强制或其他某些特殊手段以使个人按照他们的共同利益行事，有理性的、寻求自我利益的个人不会采取行动以实现他们共同的或集团的利益。
本书作者认为：即使是在一个其他人不愿合作的世界里，合作仍然可以通过一小群准备回报合作的个体来产生。且基于回报的合作一旦在群体中建立，它就能保护自己不受非合作策略的侵入。

１.什么是囚徒困境？

在囚徒困境中，双方只有合作、背叛两个选项。如果都选合作，则双方的收益为3，如果一方背叛、一方合作，则背叛的一方收益为5，合作的一方收益为0，如果双方都选择背叛，则双方的收益为1。（见下表）

咱们就不能弄个二次元的理解方式吗？

可以，没问题。《天行九歌》这个动画里就讲了许多博弈论的知识，刚好第５集里就讲到了囚徒困境。

在这一集中，韩非抓住了两位有嫌疑的王叔：安平君、龙泉君。因为身份原因，两人死不认账，也没有太严厉的处罚措施。所以韩非第一步先把他们分开审问，让他们无法了解对方的情况，也无法对口供。第二步，韩非告诉他们：先招供的无罪释放。

两位王叔都不知道对方是否会招供，而且无论对方是否招供，自己先招供都是有利的。如果对方没招供，那么我就无罪释放。如果对方要招供，但我不招供，我不是亏大了。

不出韩非的意料，两人都迫不及待地招供了。但是你想，如果两人都招供，虽然没有死刑，却也不会好过。

为什么看起来总是有利的行为却得不到最好的结果？本书的作者就想突破囚徒困境，研究双方都选择合作是如何可能的。

２.一报还一报

作者认为：重复博弈（即重复囚徒困境）为合作的出现提供的可能。如果决策的双方从此不再相遇，那么选择背叛是有利的。但如果双方以后会相遇多次，那么就得好好考虑如何决策了。你得考虑未来，毕竟有比收益都是1更高的选择。

作者通过计算机程序模拟人的决策来探究在囚徒困境下如何决策最有利。每两个程序之间重复数次囚徒困境，然后计算总分。结果是“一报还一报”得分最高。

一报还一报的逻辑是：不首先背叛，但当对方背叛时，它将在下一次背叛。当背叛者选择合作时，它在下一次也会选择合作。即重复对方的上一次选择。

“一报还一报的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作，它的清晰性使它容易被对方理解，从而引出长期的合作。”

值得一提的是，“一报还一报”从来没有在一次游戏中比对方得到更多的分。对于恶的规则，它总是让它先背叛，且它的背叛次数不会多于对方。对于善的规则，它们总分是一样的。这说明它的稳定性最好。无论与什么规则合作，其总体效果是最优的。它的胜利，不是靠比对方做得更好、剥削对方，而是靠引导出对方的合作。之前囚徒困境里的一直背叛是局部最优，而不是总体最优。

其他规则如“DOWNING”：如果对方不对它的行为做出反应，它将尝试背叛，如果对方反应的话，它就合作。这是一个见风使舵的规则。如何决策取决于对方是什么样的规则。它会先尝试背叛，如果对方无反应，则继续背叛，如果对方也选择背叛，它在下一次就会选择合作。如果对方是背叛型的，那么它将会选择背叛。如果它头两步选择合作，它将超过“一报还一报”的分数。但在实验中，它头两步设定为背叛，结果它的分数是第十名。

３.两报还一报

“两报还一报”是“一报还一报”的更宽容版本：对方背叛两次，它才背叛一次。在竞赛中“两报还一报”名列24。

这似乎说明，宽容过多是很容易被占便宜的。“无条件的合作不仅伤害自己，而且伤害了这个成功的剥削者接着要遇到的无辜的旁观者。”

这也佐证了孔子的观点：“以直报怨，以德报德”。除非是想用“以德报怨”感化人并且成功，不然，日常生活中应少做以德报怨的行为，这只会使坏人气焰更加嚣张。

所以，本书的结论就是：

以德报怨不如以直报怨，

两报还一报不如一报还一报。

标签：

囚徒困境与以直报怨 | 《合作的进化》札记

１.什么是囚徒困境？

２.一报还一报

３.两报还一报