网络麻将实力的评价方法
1.引言
麻将是运气游戏。成熟的竞技项目只需要很短的对局数就可以保证实力稍强一线的选手有可观的概率赢下比赛。以乒乓球为例,马龙生涯974战839胜,胜率86%[1],而他的对手也多是训练了数万小时的职业运动员。能够精确地敏感地反映实力差,强者就能经常地在赛会制比赛中取得好名次,训练量差距就能直观的反映到成绩上,项目本身就能够顺利竞技化、职业化。
麻将不是这样的项目。数理麻将研究者Meaning曾做过如下模拟:给定日本麻将(以下日麻)网络平台《天凤》的对局者的等级分(Rating,简称R)差距和对局数,观测两人间的直接胜负[2]。如图1[3],等级分相差400左右(相当于约6段位差)的二人,单局的胜负在六四开,等级分相差80左右(相当于约1段位差)的二人,单局高分者的胜率只能将将过半。而要确保在95%的置信水平上,一定对局数内赢多输少,等级分高400的玩家需要100战,等级分高80的玩家则需要2000战。这意味着在对局数通常远小于100战的赛会制比赛中,我们完全无法凭胜负关系判断刚入门的的新人,和经验丰富的老手谁强谁弱——而他们之间的训练量可能相差百倍。相对地,对于绝大多数成熟的竞技项目,10倍的训练量(职业和核心业余玩家的差距)往往就意味着万无一失的天堑。

对于水平接近的麻将玩家,1000战是令人绝望的数字,在同桌率奇高的凤凰桌东风战中,只有两位玩家互相达到了1000次同台竞技[4]。因此,日麻绝不是高竞技性项目,它在一系列误打误撞的、不彻底的改革中,偶然得到了相较其他规则稍多的技术细节,但它依然没有脱离麻雀本身的特质——比起竞技,它和赌博有着更天然的亲合。
但良好的项目需要客观地描述玩家的差距。若是完全放弃客观标准,倒向主观评价,我们不难预见,任意玩家都可以借口“我打得根本不差”,“你是恶意攻击”来拒绝他人评价,从而导致无序的环境,导致新人难以进入,导致玩家难以自我定位而丧失成就感,最终失去竞技化的可能。事实上,百多年来大家就是这么稀里糊涂过的。而如果玩家们不想再打回百多年来的赌博麻将,如果不想麻将止步于休闲娱乐,就必须解决评价问题。对此,网络麻将(以下网麻)给出了解决方案。

2.段位制
让所有玩家互相对局100战显然是不现实的。但网麻创造了随机的匹配,可以认为每个玩家在某一时期某一平台某一级别的房间遭遇的对手,其平均实力是相同的。如此便有了共同的参照。各平台皆以此为基础搭建了晋级制度。我们以其中最成功的天凤为例探讨。
天凤的晋级制度,可以称为段位-等级分双轨制。等差增加的4位pt惩罚使升段的难度逐渐增加,图2[5]展示了老一辈研究者“我打麻将”模拟的,七段实力者(顺位分布为4个0.25)在凤南从七段1400pt开始,对局n战后最高曾到达过x段的频率。可以看到,在10000战(绝大多数人整个游戏生涯都无法达成)以下,到达过九段的机会不小,而到达十段的可能则小于10%。也就是说,以一般人的对局数来说,达到超出自己实力3段的段位是很难的。一位到达过七段的玩家至少可以很有信心地说,我比只到过四段的人强。这也就是平时大家说的波动2段的含义。七段和四段的差距虽然巨大,但至少,在一定程度上评价实力成为了可能。值得注意的是,如果某玩家能像第一行那样,在100战之内到达八段,那他真实实力也九成高于七段。所以和我们的一般印象稍有不同,有些时候评价实力并不需要长期对局——当然,这种情况总是少见的。

“最高到达段”的弊端在于没有细节,无法处理对局数累积而产生的影响。100战之内升到八段的玩家如果此后1000战一落千丈,我们将不得不重新审视他的实力,但此时“最高到达段”这一标准已经不再合适。同时,随着对局数增加,到达任何段位的概率都会增加,2000战到达过九段的频率是1000战的2倍有余,但通常我们并不能比较它们的强弱,因为不知道升九前后的具体情况。这样一来,“最高到达段”的区分度就降低了。
等级分制减缓了对局数累积的影响。如图2展示的那样,升段越快,实力强的可能性就越大。而等级分公式决定了若升段耗费的对局数过多,就很有可能达不到高级场的准入标准。即结果上,等级分门槛挡住了实力强的可能性不大的玩家。有趣的是,上述“最高到达段”的标准,完全可以替换为“最高到达R”,因为等级分自带补正,相当于段位制的负和,却又比段位制连续。从这个意义上讲,段位制反而很冗余。但减缓影响不能本质上解决对局数累积的问题,“最高到达R”同样不反映细节。此外,由于等级分低于1500的帐号离开游戏的概率很高,等级分实际上一直处于通胀之中。如今的天凤的平均R相较十年前上升了大约25R,特凤之间的2000R门槛形同虚设,只有上特之间的1800R门槛还在发挥一定作用。而凤桌之后又不在有新的门槛,所以等级分对最受关心的凤桌玩家的实力区分无甚帮助。
如此,我们可以认识到,段位制并不必须。事实上,先于天凤的高水平网麻平台《东风庄》便不设段位,只设等级分。天凤的等级分公式只是对东风庄的微调[6],段位-等级分双轨制亦非划时代的构想。天凤凤凰桌成为网麻最高水平平台不是因为段位pt设计得多好,而只是因为最高水平的玩家群选择了它。面对这个为赌博而生的、先天不足的游戏,段位制搞得再巧妙也玩不出花。
但人们还是玩出了一些花花。

3.安定段位
2011年8月,天凤的月间排名中悄无声息地上线了一个新项目:段位效率。彼时坊间已有不少计算安定段位(以下安定段)的小工具,这是对它们的认可,也是玩家们的选择。天凤采取“段位效率”一名是因为月间的战绩并不“安定”,而要让安定段安定下来,就需要大量的对局数,这就恰好解决了段位制无法处理的对局数累积的问题。这也就是平时大家说的对战数重视的含义。由于网麻可以低成本记录全部对局,这回玩家们终于可以直观地看到对局数是如何暴力地收敛成绩的了。

图3[7]为安定段的置信区间随对局数的变化,横坐标为对局数,纵坐标为安定段,三组折线由外至内分别为99%、90%、80%的置信区间。可以看出,对局数少时,安定段变动激烈,不能评价实力,大约到500战后,安定段才比段位本身更“安定”。实用地说,700战安定段高2则95%更强,3000战安定段高1则95%更强,平时可以以这两个数字为节点。3000战,还是绝大部分核心玩家能达到的对局数。大约10000战以后,99%的置信区间也会收敛到±0.5段之内,但这已经超出常人的领域了。借助安定段,我们能够评价出1段的实力差,对于麻将这个运气游戏来说已经是阶段性胜利了。同段位制一样,安定段在不同平台的规则下也可以替换为安定R、平均顺位等指标而同样生效。
当然,没有能评价一切的标准。安定段常因不能反映当前实力而受诟病。但其实没有哪个项目的积分系统能反映当前实力,积分只能参照选手的过往成绩,而无法考虑近期的进步、伤病等因素。麻将不能反映当前实力比其他项目看上去更严重,在于成熟的项目的最大荣誉,永远 是冠军,而不是虚无缥缈的积分或着排名——那是实在没成绩才会吹的东西。但麻将必须依靠长期对局,比赛冠军才是虚名——这是麻将的运气成分决定的,任何指标也无能为力。
有时候,我们会筛选一个区间内的对局来看安定段,但这其实很危险。图4是凤桌某玩家从第5000战起的“近5000战安定段”的变化,横坐标为对局数,纵坐标为近5000战的区间安定段。他的0~5000的安定段为7.7,5000~10000战的区间内彪升到8.8。但如果我们草率地判定,在5000~10000战的区间时,他的实力进步了一段,就不得不同样地假设在10000~15000战,他的实力退步了2段,而此后的15000战内,他竟然又进步了2段重回巅峰,但又又又退步了2段再入谷底。这显然是滑稽的。可是图3已经告诉我们5000战的安定段已经能90%收敛在±0.5段内,怎么图4里又连着好几次2段2段地波动呢?

其实冷静观察,易见大部分数字确实分布在7.8±0.5段之内,超出此区间的节点占16%,基本符合图3。但如果随心所欲地选取区间,那打了35000战就有30000次机会,哪怕是超脱于99.9%的置信区间的数字,也是信手拈来。即使不人为筛选,只是每隔n战这样划分,那划上五、六个区间,也有可观机率抽到5%级别的波动了。像这样筛选安定段的方法,比起筛出所有top说“我安定inf.”,高明得有限。图5是这位玩家700战起的累计安定段变化,每个数字都是截止当前对局数的总安定段。可以看到5000战后变化就趋于平缓,10000战后甚至几乎不曾跳脱出±0.1段。图4中的那些山峦丘壑,在图5中如同萎缩得像虾爬。不筛选地查看总体安定段,是利用安定段数据的正确方法。这也是不建议频繁换号的原因之一,因为换号会不可避免地产生划分区间的节点,增添了查看总体安定段的麻烦[8]。

进一步地,我们也能够发觉所谓的当前实力很难偏离总体安定段太远。安定段本就是高水平玩家才需要关注的信息,而对高水平玩家来说,提高本就是缓慢的,如果对局是连续的,那进步已经一点一滴地融入在了每一次对局之中。高水平玩家不可能靠看了点战术书或着做了点静态何切实力就一夜爆涨。即便有所领悟也需要连续的安定段来佐证,更不要说不在高级场强化领悟,而放任它在低级场生锈是多么暴殄天物。除非在某个节点转战其他平台打几千战取得进步后回归,我们无需截然地分割战绩。
就天凤平台而言,安定段还有一些小问题。段位制的pt设计,导致每一段上的最佳pt策略会有微小的差异,而在超出单场的更大尺度上,又有故意掉段等策略。玩家们对此各有选择,安定段无法顾及。但即使如此,高级场长期安定段依然是现行最具效力的评价标准。
然而,实力的本质在于技术细节,讲实力而一字不提具体技术,是不是忽略了房间里的大象?

4.牌局内容
看一个人实力如何,难道不是看了他的对局就能了解了吗?是,也不是。实力差距过大时,强者可以轻而易举地指出弱者的漏洞,因为有些选择之间的差距巨大,运气成分可以迅速收敛,几局就可以体感出来。同时统计研究给了我们一些理论,可以客观地判定对错,指导弱者快速进步。但顶尖玩家在复杂局面下的分歧,却难以频繁出现,51:49的微差选择,可能打到升天凤位,反而是后者表现更佳。同时现有理论对此也无能为力,因为现有理论只是在解释顶尖玩家早已玩烂的技术,而不能教授他们新的技术。有副露率50%的十段,也有副露率20%的十段,很多局面下的最优解不唯一,天凤位的牌风差异也极大,谁也无法成为标准参照,运气因素产生的噪音会立刻淹没细微的技术差异。这也就是说,失去理论的客观标准后,弱者无法判断强者间的强弱。假设甲只通过看牌谱,能判断甲乙丙三人实力为甲<乙<丙。但能做出这个判断,说明甲的体系可以正确定量评价丙和乙在所有技术环节上的优劣(由于加权不同,仅仅定性是不行的)。然而如果可以正确定量评价,则甲的体系必然优于乙和丙,甲<乙<丙不成立。即如果确实甲的实力劣于乙和丙,则甲不能正确判断三人间的实力排序。而我们平时能感觉出谁比我强,正是因为我们不能完全隔绝理论带来的客观标准,我们总是或多或少知道自己哪里打得不好。
同时,在分析相近实力的玩家时,牌谱本身丢失的信息不可忽略。现有的网麻平台均无法做到保留实战的卡顿、伪卡顿、思考时间等信息。一旦这些信息影响到做牌思路,那整局牌的十几次操作都要受波及而评价不准。即,牌谱本身有误差,测不准小于刻度的差距。
综上两点,评价实力必须要借助客观标准。这个标准可以是段位、安定段、可以是理论,也可以是麻将之神。假如存在“正确每一打”的麻将之神,那么它确实可以居高临下地给所有人排名(但也得收集齐牌谱信息)。 当然,绝对的正确只能是信仰,比较可能的现实的出现远超人类实力的AI。可惜的是,目前的日麻AI还远远达不到顶尖人类的水平[9],而麻将也不怎么受业界关注,难以期待此后几年AI有大进步。但至少这是个念想,就在最近,Naga在天凤推出了牌谱分析报告业务,以其目前的实力来说,对特上以下的玩家非常实用,新人们又多了一条快速提升的路径。
至此,我们梳理了网麻中评价实力的意义,评价实力的客观方法及必须采用客观方法的原因。但越是梳理清晰,我们就越不得不接受麻将是运气游戏的事实,不得不接受很可能整个游戏生涯也无法和差1段的人真正分清强弱。这样的游戏无法真正竞技化,除非它有魄力走进唯一的窄门——

5.复式麻将
日麻并不欠缺技术细节。训练一个凤凰,理论加实战怎么也得1000小时。相对于每局的配牌摸牌,技术细节能改变的东西少得可怜。试想哪怕是百米跑这样的纯实力项目,如果随机分配起跑位置,那我也能和博尔特三七开。麻将的配牌摸牌甚之数倍,而复式恰恰能帮我们砍掉这两个最大的运气要素。复式的概念来自桥牌,原则上,它允许无限多玩家在不同桌打同一副牌,配牌和摸牌都相同,玩家不与同桌的对手比较,而与其他桌同风位的玩家比较。如此,则牌山在一局内对某家的青睐完全化为乌有——全都和,相当于全都没有和。当然,不完全信息博弈的本质无法更改,好形还是有1/3可能输给愚形,但复式的实力收敛会极其迅速,因为日麻每局有可观的决策次数,每次决策也通常涉及多个技术细节。反之,比如飞行棋之类技术细节少的项目,做成复式也改变得有限。不妨做如下思想实验:假设有甲乙两位玩家,甲单战和乙的不同操作,不影响结果的概率是90%,带来更好结果的概率是7%,带来更差结果的概率是3%(这大致相当于1段位差),这样单战胜计1分平计0分,比赛10战,则平:胜:负的比例大约为43:42:15。哪怕平局后抽签决胜,那高1段的玩家3次里也能赢2次。参考图1,按传统赛制,这需要200战。10战已经是赛会制比赛决赛能承受的对局量,比赛的含金量上升,离竞技化的路就近了一程。比赛100战,则平:胜:负的比例大约为6:87:7,高1段已经十拿九稳。而按传统赛制,这需要2000战。相对地,复式2000战已经足以区分0.01段级别的差距。复式至少能加快收敛速率20倍,假如仔细打磨赛制细节,收敛得还会更快。
复式麻将在国标麻将中已有应用,世界麻将运动会曾采用此赛制,甚至有同桌的他家全是AI的比赛,连对手造成的偶然因素都抹平了。天凤也曾做过线上测试。复式在技术上没有难度,本场之类的要素不关乎日麻的基础,若在线下不易实现,大可砍去。复式面临的最大阻力不在技术,而在整个社会的惯性,也在组织者和爱好者的心里。但这就是另一个故事了。

6.结语
本文做了一些琐碎的整理,没有什么创新,我也没有统计相关的研究能力。文中内容多为高水平玩家的共识,只是平常的讨论模式难以系统性地介绍,致使部分新人对各种指标的理解产生了偏差。只是休闲娱乐的话,那本文毫无意义,因为提高竞技性不是麻将的主旋律,也不是唯一正确的麻将观。但想要提高技术,希望麻将变得更加竞技的玩家们,可以参考本文,树立正确的实力观。
注
[1]https://results.ittf.link/index.php?option=com_fabrik&view=details&formid=99&rowid=105649&Itemid=266
[2]终局时顺位在上者胜。
[3]出自Meaning博客,原文已删除。
[4]当然,如果在凤东打数千战,几百个对手里总能和两三个打出足以区分强弱的战绩。比如100战60胜,已经在95%的置信水平上显著——但这微不足道的福利也只限于凤东了。
[5]http://blog.livedoor.jp/wo_da_majiang/archives/52148692.html
[6]东风庄等级分公式:局变动R=((他家平均R-自家R)/60+(2.5-顺位)*20)*补正数,天凤等级分公式:局变动R=((桌平均R-自家R)/40+(2.5-顺位)*20)*补正数,补正方案相同。
[7]http://blog.livedoor.jp/utatanecat/archives/4285607.html
[8]要注意的是,不同场的安定段最好不要合并着看。同一玩家,不考虑是否擅长,在不同场的理论安定段不同。般上特凤的安定段公式不同,理论上高级场的安定段高于低级场(否则高级场就没人打了)。而由于小局数少,东风较半庄离散程度小,同水平则在东风安定段会更靠近零和段位,并且离零和段位越远,影响越大。比如凤南安定6段,在凤东也许可以安定6.3段,在凤南安定9段,在凤东也许只能安定8.5段。
[9]Suphx和Naga虽然都达到了安定8段以上,但AI的实战水平基本等于理论水平,而人会在要求快速思考的网麻中因体系内的失误打丢至少一个安定段,并且安定越高,受失误的影响越大。即,AI的理论水平至多不过是凤桌平均水平。
