【LLSIF】复读分与复读奶的LLH实测验证
前言
LLH作为存在已久的工具网站,深得玩家喜爱,许多组队策略与队伍的具体选卡均依赖于LLH计算。SIF从最初的分卡,到PP,再到复读机复读奶,LLH也历经多次更新。然而,LLH由玩家自行编写维护,在技能相互作用机制,以及具体代码上并非完美,曾经就有覆盖型技能结束后自动驱散lvup状态的bug,导致严重低估了同时带有Lvup和覆盖型技能的队伍(eg.复读机复读奶,目前已修复)。因此,对于复杂特殊技能相互作用的非普分卡组,有必要对LLH模拟是否足够准确进行验证,以便更好的指导组队策略和强度理论。
本文对25N复读机、27N复读机、27N复读奶分别行实测验证,以评估LLH的准确性,为笔者其他用LLH为主要研究手段的文章提供佐证。目前日服加入了饰品机制,但LLH何时添加是未知数,饰品的作用机制目前也未知。因此本文验证不涉及饰品。
关键技术:单样本t检验、皮尔逊相关性、非参检验、样本容量与容许误差估计。阅读全文需要一定统计学知识。

一、复读分
验证的复读机有两组,25N蓝和27N蓝。通过调整宝石将全队属性值控制在相同水平,方便互相比较,具体配置如下。


测试环境:传统模式,水族馆(889N),异色好友主唱(即0加成)。
记录:P率与得分。LLH模拟记录相应P率和环境下的各百分位得分。

由于25蓝队伍中有更多的卡异团异色,所以我们需要对这一部分点击分校正。相同属性值的一队6果的得分是1121302,可以相应得出,5张异团卡+1张异色卡(假设均匀分布)共1121302/9*0.1*6=74753。校正后的25蓝得分记于校正栏。
由于实测组的P率都十分接近,将p率和得分线性回归,数据显示并没任何的线性相关。因此后续不对P率校正。
LLH的5%到95%共19个数据点,所以我们拿去每一组实测数据的最后一个数据,整理后排序作图:

可见,LLH模拟基本准确。27蓝后半段整体在模拟之上,但单样本t检验示P=0.345,不认为总体均数存在差异;25蓝P=0.315,不存在差异。将27蓝的前50%的十个数据点单独拿出,与LLH的25%得分做Wilcoxon中位数检验(正态分布的顺序统计量肯定不再是正态分布,不再符合t检验条件),P=0.059。P值不大不小,正好卡在临界点上很尴尬,所以LLH是否存在对高分段的低估尚存疑,需要更大样本量进一步支持。
根据单样本均数t检验的容许误差计算公式:

样本量20,α、β均取0.1,得27N和25N的δ分别=36w/32w。也就是说,如果实测和LLH的均值差异超过δ,可以使用上述方法计算出来。如果在δ以内,可能的确存在差异但目前的样本量检测不出。鉴于复读得分巨大的标准差,只有扩大到300+的样本量才能检验出10w以内的分差。根据目前数据提供者提供的数据量,只能做到35w附近。
继续将27蓝与25蓝校正相比,P=0.018,均分差异为424866,27蓝更强。由于选取曲目为889N,889=32*27+25;=35*25+14,从这个角度来看889N对25来说更赚,25更低不是因为轮数的原因。但这是否由于概率up不同,若更换相同概率up后统计学意义是否会消失,本次实验不得而知。LLH模拟来看,25用bd善之后,曲线略微低于27,均分差异被降到很小

本节总结:LLH对复读机的模拟整体可靠,但细微差别(6%以内的偏差)及上限尚存疑。目前没有统计学证据表明LLH存在误差。

二、复读奶
将27N绿cyr复读奶进行验证。环境为传统模式,曲目樱花拜拜,好友统一选择曜露12+9。

总共50次数据,有点长就不具体给出了,有需要可以问我要。p率集中在90-95%间。P率与得分没有相关性(由于太集中了,再加复读奶本身的巨大随机性,被掩盖了)。奶量与得分有相关性,如下图。


可见,回奶越多,越容易得高分,但两者也不是非常严格的关系,也有低奶量中等得分,或高奶量低得分的数据。
LLH模拟回奶期望是3092.76,即64(64.42)条,实际50次打歌得回奶平均65.98条。由于实际记录的数据中,回奶到71就截顶了,不符合正态分布,因此我们使用非参检验验证LLH回奶期望准不准。

符号检验P=0.041,若采用Wilcoxon检验则P<0.01。提示LLH回奶期望存在低估,但低估幅度很小(1-2条),具体原因不明。

我们继续验证得分。单样本t检验示P=0.672,容许误差=25w,可以认为LLH模拟整体可靠,不存在差异:

可见,总体两者非常吻合,但前10%实测得分高于模拟得分。我们继续对前20%的十个高分数据点(考虑到需要一定样本量保证准确性,取十个点,即前20%)验证:单样本(LLH10%得分为假设中位数)Wilcoxon检验P=0.333。目前的数据不支持LLH对前20%得分存在低估。如果缩小到12%即6个高分点的话就支持了,但我觉得6个太少了结论不一定可靠。

本节总结:
1. 复读奶的回奶量与得分中等程度相关
2. LLH对复读奶的模拟整体可靠,均分不存在差异
3. LLH的期望回奶存在小幅度(约1-2条奶)低估
4. 没有统计学证据表明LLH对复读奶前20%的高分段低估(看图的话,即使存在低估,也在2-30w以内)。

本次验证就到这里。不论复读奶还是复读分,整体而言LLH结论可靠,不存在明显的低估或高估,但上限得分均存疑,目前样本量难以实锤确实是低估,还是随机误差所致。使用LLH作为复读分或复读奶的研究手段整体可靠。