欢迎光临散文网 会员登陆 & 注册

从BGG到新物集,我们究竟需要怎样的桌游评价系统?(中篇)

2023-08-07 22:01 作者:特污屠DavyMatt  | 我要投稿

输出端和黑盒环节一起讲。

BGG最广为人知的仍然是其排行榜,但决定其顺序的并非算术平均分(Avg Rating),而是一种被称为Geek Rating的分数。Geek Rating究竟是怎么计算的,BGG官方至今没有完整地披露。但至少有一点可以明确,那就是在计算时,会人为地加入若干5.5分的虚拟评分,以防止评分人数较低但均分较高的新游戏一下子冲太快。基于BGG上一篇名叫“Reverse engineering the BoardGameGeek ranking”帖子的说法,虚拟评分的数量大概在1500-1600之间,但不同游戏的差异还是比较大。

至于差异的原因,存在几种解释(彼此之间其实并不矛盾,可能都是正确的):一是虚拟评分数量本身就是个浮动值,会随评价总数而变动;二是玩家的评分在计算时并不会被平等对待,可能会存在加权或者筛选,比如离均分太远的评分可能被视为异常值而被降低权重。另外还存在一些空穴来风的猜想,比如出版年份越近加权越高、评分人数越多加权越高,但目前已经有大量反例。

Geek Rating乍一看会比Avg Rating更科学,因为其规避了极端值的情况,也在一定程度上帮玩家对评价的质量进行了筛选。然而,由于其非透明性,偶尔也会出现一些匪夷所思的情况,让用户对其公信力产生怀疑。比如目前BGG(2023年8月5日)排行榜的第二位《瘟疫危机承传第一季》无论是平均分还是评价人数均低于第三位《幽港迷城》,但Geek Rating就是更高。

好在BGG的筛选功能比较齐全,允许用户基于自己喜爱的方式重新塑造排名。我目前比较喜欢的排名方式是,先排除评价总数低于2000的游戏,然后直接按照Avg Rating从高排到低,个人认为会相对更靠谱一些。

除此之外,BGG在输出端的其他表现都很不错。桌游列表处会详细展示Geek Rating(保留三位小数)、Avg Rating(保留两位小数)、Num Voters的值。单款桌游标签会展示Avg Rating(保留一位小数)、全库排名和子类排名。单款游戏点进Ratings & Comments还可以看到整数评分的分布和评分的标准差。算是把能公开的数据都进行了公开,属实是数据狗狂喜了。

来到国产平台。

集石的特点是删繁就简,一切为移动端易于展示和方便操作而让步。首先,集石排行只显示一个一位小数总分(疑似为简单的算术平均分)。其次,在单款桌游的标签处,也仅有一个一位小数总分和全库排名,评测部分也没有样本描述相关的文字或图表展示。最后,筛选选项确实不多。集石的界面的确清晰明了,但工具性价值也几乎被完全抹去了,且集石排行本身也并未形成至少“中国版BGG排行版”的影响力。

新物集评价系统目前刚上线,绝大多数游戏尚未达到50个样本的推荐率展示门槛,但从少数超过阈值的游戏来看,单款桌游的评分展示所采用的是一种融合了Steam推荐率和豆瓣评分分布的模式。推荐率的设计来源于Steam,但又不完全一致,算是各有优劣。优点在于,新物集的纯数字百分比更加直观,也为后续排行榜的引入提供了直接依据;而缺陷在于,没有Steam那种“差评如潮”“多半好评”的文字评价,光一个“新物集推荐率”仍然少了些记忆点和形成亚文化的潜力。 

新物集推荐率也存在着黑盒问题。根据官方自己的披露,推荐率的计算也有加权处理,会根据用户专业度、评价质量、评价时间、评价数量等多种要素决定权重,人为操纵的空间还是极大(尽管现在还未体现)。

另外,新物集的三元制评分还容易出现一些神奇的情况。比如两款游戏A和B,都有100人评价,A游戏70推荐30一般,B游戏71推荐29不推荐,假设一般和不推荐两种状态对于推荐率没有差异性影响,那么B游戏的推荐率就会严格高于A,使得结论容易出现片面性和误导性(虽然有评分分布进行弥补)。

最后,和集石一样,新物集目前针对桌游数据的标签检索功能非常弱,这就使得这两个评价系统尚无法有效为玩家选品和设计师研究趋势提供实质性的帮助。

当然,无论是集石还是新物集,都存在着一些BGG所不具备的积极共同点:一是会有官方定义的“优质测评”;二是允许用户对评论进行点赞和再评论。前者替用户进行了评价的初步质量筛选(一定程度上提高了评价的参考价值),后者则增强了社区互动性,算是我认为国内桌游评价系统相比BGG的真实改良之处。 

总结而言,评价系统在黑盒环节和输出端会有四个要点:

一是需要形成一个极具辨识度的主要指标。对于BGG而言是Geek Rating,对于集石而言是集石评分,对于新物集而言是新物集推荐率,对于Steam而言是好评率。这个主要指标应当与平台深度捆绑,成为平台的代表,因此有必要将其与其他指标显著区分开来。而在有了这个主要指标后,仍然需要通过一系列长期运营和营销推广使其深入人心。在这点上,BGG的Geek Rating由于其决定了排行榜顺序而广为人知,而Steam为其好评率赋予的从 “差评如潮”到“好评如潮”的文字描述也牢牢占据了用户的心智。相比之下,集石和新物集仍有很长的路要走。

二是优化与评价相关的产品页面设计。未必需要细致入微、一览无余,但应把握用户最需要什么,并有重点地呈现。比如BGG会列出游戏的总排名和分属类型排名,从而给予用户一个直观的比较性判断。而像之前所说的新物集三元制评分可能出现的奇怪现象,额外提供一个分布图也能很大程度地解决这个问题。

三是需要把握黑盒环节的简繁分寸。黑盒环节本质是为主要指标服务的。假如黑盒环节过于简略,可能会影响主要指标的科学性和参考价值;但假如黑盒环节过于复杂,或者过程中掺杂了较多可被人为操控的部分,也会加大用户对指标公信力的质疑。适当地披露黑盒环节的计算过程或原理,增强透明度的同时也能激起用户的讨论,也是一种比较好的运营方式。

四是尽可能提供基于评价系统的工具性应用。这就要回到评价系统最本源的问题:用户为什么需要评价系统?玩家需要其帮助自己遴选出最合适的游戏,设计师和产品经理则需要通过观察游戏标签和评价来更好地把握用户偏好。因此,能为游戏打上越详细的标签、提供越多的评价指标,就越能解决用户的工具性需求。当然,这可能是一项极度耗费人力的工程,效仿BGG的UGC模式或许是一个出路。

从BGG到新物集,我们究竟需要怎样的桌游评价系统?(中篇)的评论 (共 条)

分享到微博请遵守国家法律