欢迎光临散文网 会员登陆 & 注册

策略分析例子:选数比大小

2022-02-10 17:31 作者:桌游小黄鸭  | 我要投稿

甲和乙进行对局。

规则很简单:甲和乙同时选择一个0和1之间的数字,分别记为X和Y。双方进行决策后,系统生成一个0到1之间的随机数(均匀分布),记为Z。

胜负规则(以及效用):若X>Z则认为甲“爆了”,若Y>Z则认为乙“爆了”。若双方都爆了,则视为平局;若一方爆了,则没爆的一方赢;若都没爆,则写出较大的数的一方赢,若相同则视为平局。赢者效用+1,输者效用-1,平局时双方效用为0。

直觉分析

从感觉上来说,写较大的数是不明智的——容易爆,此时要么输要么平,不利。

写较小的数可能也不太好——只要对方没爆基本就输了。

视对方策略为概率分布

我们站在甲方的立场,但假设Y的分布已知(换言之,%5Cmathbb%7BP%7D%5Cleft(Y%3Ct%5Cright)对任意t都已知)。

这种情况下,我们如果进行决策X%3Dx,我们的期望效用等于

%5Cint_0%5Ex1d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(%5Cint_y%5Ex(-1)dz%20%2B%20%5Cint_x%5E11dz%5Cright)%2B%5Cint_x%5E1%201d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(%5Cint_x%5Ey%201dz%20%2B%20%5Cint_y%5E1(-1)dz%5Cright),

这是直接根据游戏规则所列出的表达式(若Y<Z<X则甲负,若Y<X<Z则甲胜,若X<Z<Y则甲胜,若X<Y<Z则甲负)。我们暂时忽略了X=Y的可能性。除非乙的策略包含单点的概率质量,否则这一假设是合理的。

我们可以将期望效用进行化简。计算可得甲方期望效用为

U(x)%3D%5Cint_0%5Ex1d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(1-2x%2By%5Cright)%2B%5Cint_x%5E1%201d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(-1%2B2y-x%5Cright),

我们暂时假定%5Cmathbb%7BP%7D%5Cleft(Y%3Ct%5Cright)t连续可微(我们之后会发现这并不成立,但我们先这么去算)。将上视关于x求导可得

U'(x)%3D(1-x)%5Cfrac%7Bd%7D%7Bdx%7D%5Cmathbb%7BP%7D(Y%3Cx)%2B%5Cint_0%5Ex1d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(-2%5Cright)-(-1%2Bx)%5Cfrac%7Bd%7D%7Bdx%7D%5Cmathbb%7BP%7D(Y%3Cx)%2B%5Cint_x%5E1%201d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(-1%5Cright)%5C%5C%3D2(1-x)%5Cfrac%7Bd%7D%7Bdx%7D%5Cmathbb%7BP%7D(Y%3Cx)-1-%5Cmathbb%7BP%7D(Y%3Cx)%2C

如果乙方的混合策略给定,我们可以通过求上式的零点来计算甲方的最优应对策略。

立场转换

现在我们转而站在乙方的立场。我们暂且给乙方一个看似不公平的规则:乙方必须将自己的混合策略告诉甲方。我们必须慎重选择策略,才能让甲方无机可乘(即使甲方知晓乙方策略)。

一种直觉的想法是,乙方选择策略后,甲方不论如何决策,期望效用都一样。这种情况下,上一节的U'(x)%5Cequiv0,也即

%5Cfrac%7Bd%5Cmathbb%7BP%7D(Y%3Cx)%7D%7B1%2Bd%5Cmathbb%7BP%7D(Y%3Cx)%7D%3D%5Cfrac%7Bdx%7D%7B2(1-x)%7D%2C

两边积分,并且利用边界条件%5Cmathbb%7BP%7D(Y%3C0)%3D0可解得

%5Cmathbb%7BP%7D(Y%3Cx)%3D(1-x)%5E%7B-0.5%7D-1%2C

但这个解明显是有问题的。事实上,如果x%3E0.75,上式计算出来的概率将大于1,这是不合理的。不过,以此为启发,我们可以考察这个分布:

%5Cmathbb%7BP%7D(Y%3Cx)%3D%5Cmin%5Cleft((1-x)%5E%7B-0.5%7D-1%2C1%5Cright)%2C

可以验算,如果乙采取这一策略体系,当甲进行决策X%3Dx时,如果x%5Cleq0.75,则U(x)%3D0%3B如果x%3E0.75,则U(x)%3C0。换言之,乙只要遵循这一策略,甲便无机可乘。对称地,如果甲遵循这一策略,则乙也无机可乘。

劣势策略和纳什均衡

我们发现,双方都按照上述策略进行决策构成整个双人零和游戏的纳什均衡点。换言之,任何一方即使知晓对方的混合策略,也无法通过改变自身策略来获得利益。但是如果自身策略不当,则会带来损失。

在这个博弈当中,如果自己的策略中,超出0.75的概率不是0,就会面对以上解出的均衡策略有所损失。这种策略称为劣势策略(至少在对抗均衡策略的情况下,相对于均衡策略而言,是劣势的)。

如果自己遵循纳什均衡策略,则对方无法剥削自己,而自己能够剥削有劣势策略的玩家;

如果自己遵循纳什均衡策略,而对方无劣势策略,则期望意义下双方持平;

如果自己不遵循纳什均衡策略,则对方有可能可以剥削自己。

启发

尽管本例子中的简单模型远不足以囊括我们在各种游戏中需要进行决策的场合,但至少我们可以认识到以下几点:

1,也许双方的各个决策之间存在着循环克制关系,但通过适当的概率组合,是可以在期望意义下保障一个底线收益的。至于底线收益具体是多少,则和具体的游戏规则有关。

2,一定条件下,零和博弈对于双方的底线收益相加应当为0。事实上,冯诺依曼证明过%5Cmin_p%5Cleft(%5Cmax_q%5Cleft(p%5ETAq%5Cright)%20%5Cright)%3D%5Cmax_q%5Cleft(%5Cmin_p%5Cleft(p%5ETAq%5Cright)%20%5Cright)。用人话来说,就是:任何双方的单步的、有限种决策的、每对决策的结果效用明确的零和博弈,都存在至少一对双方的纳什均衡混合策略。虽然本文的例子当中的决策集不是有限的,但依靠较深的泛函分析理论依然可以建立类似冯诺依曼等式的结论。本文并未讨论一般的结论,只是对于具体的例子,将纳什均衡显式地解出来了(事实上求解的过程并不严谨,只不过可以“先猜测,后验证”以证明我们的结果确实是混合纳什均衡解)。

3,劣势策略是可能存在的,但如果不对一个游戏进行精细的分析,我们难以先验地判断哪些策略是劣势策略。如果我们用了劣势策略,对方甚至不需要知道我们的策略体系,也能用纳什均衡对我们进行剥削。


策略分析例子:选数比大小的评论 (共 条)

分享到微博请遵守国家法律