石头剪刀布,如果得分不同怎么玩(下)

感谢 乔木心心 提到的这个创意!!
由于我水平有限,以下只能算我尝试解题的记录、学习笔记,像“纳什均衡”等概念都是第一次接触,可能发生理解错误、计算错误、表述错误等,最后结论也不确定对,欢迎指正!

书接上文~
5(布)胜0(石头),得5分。
0(石头)胜2(剪刀),得2分。
2(剪刀)胜5(布),得7分。
有没有可以取得最优解的策略?

5. 试试解类似的题——带详细过程
百度百科“纳什平衡”里“硬币正反”案例有详细的解题过程[1],我跟着它的思路走,没有感觉哪里不对。但我无法确定这样做是对的,我找不到出处。
知乎中“石头剪刀布胜负不同权重会导致什么策略解?”问题,“Richard Xu”给出了答案[3] 。我也无法确定答案是对的。我想尝试用刚才的解题方法做一下知乎这道题,然后跟答主给的答案对一下。
从知乎上复制下来的问题内容:
比如假设石头胜利可以得到1元,剪刀胜利可以得到0.8元,布胜利可以得到0.5元。
那么出每种的策略应该是什么?

我画了个表。这个表里,逗号前面是A的收益,逗号后面是B的收益。
用P剪刀代表我出剪刀的概率;用P石头代表我出石头的概率;用P布代表我出布的概率。
在对方出剪刀的情况下,我得到的钱是P剪刀 * 0 + P石头 * 1 + P布 * 0;
在对方出石头的情况下,我得到的钱是P剪刀 * 0 + P石头 * 0 + P布 * 0.5;
在对方出布的情况下,我得到的钱是P剪刀 * 0.8 + P石头 * 0 + P布 * 0。
还可以知道,P剪刀 + P石头 + P布 = 1
为了使利益最大化,应该在对手出剪刀或石头或布的时候我的收益都相等(不然在这个游戏中,对方可以改变剪刀石头布出现的概率让我的期望收入减少)[1],由此列出方程就是
P剪刀 * 0 + P石头 * 1 + P布 * 0
= P剪刀 * 0 + P石头 * 0 + P布 * 0.5
= P剪刀 * 0.8 + P石头 * 0 + P布 * 0
也就是,P石头 * 1 = P布 * 0.5 = P剪刀 * 0.8
再结合, P剪刀 + P石头 + P布 = 1
可以得到,
P剪刀 = 5/17;P石头 = 4/17;P布 = 8/17
跟答主的答案不一样啊,(掀桌.jpg),文章写不下去了,打不了卡了。
我仔细看了答主的解答。
答主认为“赢家获得的钱来自于输家输掉的钱”。我前面是以“赢家获得钱,输家没有损失”来算的。让我以“赢家获得多少钱,输家就失去多少钱”来再算一遍。

我又画了个表。这个表里,逗号前面是A的收益,逗号后面是B的收益。
用P剪刀代表我出剪刀的概率;用P石头代表我出石头的概率;用P布代表我出布的概率。
在对方出剪刀的情况下,我得到的钱是P剪刀 * 0 + P石头 * 1 + P布 * (- 0.8);
在对方出石头的情况下,我得到的钱是P剪刀 * (- 1) + P石头 * 0 + P布 * 0.5;
在对方出布的情况下,我得到的钱是P剪刀 * 0.8 + P石头 * (- 0.5) + P布 * 0。
为了使利益最大化,应该在对手出剪刀或石头或布的时候我的收益都相等(不然在这个游戏中,对方可以改变剪刀石头布出现的概率让我的期望收入减少)[1],由此列出方程就是
P剪刀 * 0 + P石头 * 1 + P布 * (- 0.8)
= P剪刀 * (- 1) + P石头 * 0 + P布 * 0.5
= P剪刀 * 0.8 + P石头 * (- 0.5) + P布 * 0
也就是,
P石头 * 1 + P布 * (- 0.8)= P剪刀 * (- 1) + P布 * 0.5 = P剪刀 * 0.8 + P石头 * (- 0.5)
再结合, P剪刀 + P石头 + P布 = 1
可以得到,
P剪刀 = 5/23;P石头 = 8/23;P布 = 10/23
跟答主给的答案一样。
结论
如果“赢家获得钱,输家没有损失”,那么用P剪刀 = 5/17;P石头 = 4/17;P布 = 8/17这种概率出石头剪刀布是最优解,在双方都采取最优解的时候,平均每次双方获益都是4/17元;
如果“赢家获得多少钱,输家就失去多少钱”,那么用P剪刀 = 5/23;P石头 = 8/23;P布 = 10/23这种概率出石头剪刀布是最优解,在双方都采取最优解的时候,平均每次双方获益都是0元。

6. 解本题——过程简化
5(布)胜0(石头),得5分。
0(石头)胜2(剪刀),得2分。
2(剪刀)胜5(布),得7分。
如果赢家获得分数,输家没有损失:

P剪刀 * 0 + P石头 * 2 + P布 * 0
= P剪刀 * 0 + P石头 * 0 + P布 * 5
= P剪刀 * 7 + P石头 * 0 + P布 * 0
再结合, P剪刀 + P石头 + P布 = 1
可以得到,P剪刀 = 10/59;P石头 = 35/59;P布 = 14/59
如果赢家获得分数,输家扣除相应分数:

P剪刀 * 0 + P石头 * 2 + P布 * (- 7)
= P剪刀 * (- 2) + P石头 * 0 + P布 * 5
= P剪刀 * 7 + P石头 * (-5) + P布 * 0
再结合, P剪刀 + P石头 + P布 = 1
可以得到,P剪刀 = 5/14;P石头 = 1/2;P布 = 1/7
结论
如果“赢家获得分数,输家没有损失”,那么用P剪刀 = 10/59;P石头 = 35/59;P布 = 14/59这种概率出石头剪刀布是最优解,在双方都采取最优解的时候,平均每次双方获益都是70/59分;
如果“赢家获得分数,输家扣除相应分数”,那么用P剪刀 = 5/14;P石头 = 1/2;P布 = 1/7这种概率出石头剪刀布是最优解,在双方都采取最优解的时候,平均每次双方获益都是0分。

7. 果壳网“美女主动搭讪?小心数学陷阱”文章摘录
我在最后好像找到百度百科“纳什平衡”里“硬币正反”解法的出处了,有可能是来自果壳网里一篇叫“美女主动搭讪?小心数学陷阱”的文章。
这篇文章有讲到“硬币正反”案例的出处:[2]
还记得玛丽莲•沃斯•莎凡特(Marilyn vos Savant)吗?她是吉尼斯世界记录认定的最高IQ人类,在杂志《Parade》上开过一个名叫“问问玛丽莲”(Ask Marilyn)的专栏,专门解决读者的各种疑难杂题……
2002年3月31日的“问问玛莉莲”专栏上刊登了这么一道趣题:你正在图书馆枯坐,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏(这不是死理性派最期待的嘛)。美女提议……
这篇文章里面讲纯策略和混合策略感觉还挺通俗的:[2]
人们在玩游戏的时候总会自己制定一些策略。在博弈论中,策略(strategy)有两种,一种是确定的,称为纯策略(pure strategy),在什么情况下出什么牌、做出什么选择都已经定好,只需要照章办事。另一种是随机的,叫作混合策略(mixed strategy),给你的所有动作都定一个概率,按概率随机从中选一个。人们在说到随机的时候,直觉上倾向于认为各种情况等概率出现,而有时候,控制某些情况出现的概率却会产生神奇的效果。
这篇文章是这样讲“纳什均衡”的:[2]
在有限人的游戏中,总存在这样一种情况,每个人都能采取一种策略,使得他的利益不能再增大了。这就是博弈论中重要的纳什均衡(Nash Equilibrium)。

参考
[1] “纳什平衡”,百度百科,https://baike.baidu.com/item/%E7%BA%B3%E4%BB%80%E5%B9%B3%E8%A1%A1/1325910
[2] “美女主动搭讪?小心数学陷阱”,果壳网,https://www.guokr.com/article/56198/
[3] 石头剪刀布胜负不同权重会导致什么策略解?”,知乎,https://www.zhihu.com/question/38868420