【数据分析】番剧评分,9.9分与9.8分的区别在哪里?
众所周知,b站评分的参考价值是比较低的,但这并不代表它完全没有用处。
低分番或多或少会有些问题这不用多说,高分番(特别是达到9.5分的)一般都属于值得一看的类型。换而言之,b站评分并未丧失排雷和推荐的作用。
既然推荐的效果存在,那么对于一些只想看好番的观众而言,高分番的评分准确度至关重要。
由于一些原因,诸如《魔法少女小圆》等在其他地方获得特大好评的番在b站这里是9.8分,而不是9.9分。于是,一些人便说:在b站,9.8以上的基本都是神作,这些作品之间的差距并不大。甚至还有“9.8分史诗神作,9.9分慎重观看”这样的迷惑说法:

目前b站有60部9.9分的番,337部9.8分的番,365部9.7分的番。为什么9.8分番和9.7分番数量差不多,而9.9分番数量要少很多?9.9分与9.8分之间有区别吗?

分数差距从何而来?代表了什么?
首先很可惜的一点是,b站的评分显示只保留小数点后一位。这在评分低一些的时候没什么大问题,然而在分数达到9.8这一级别后,精确度就不能令人满意了。
比如,9.90分和9.98分的番比较,前者的差评率大概是后者的5倍之多。即使拿“粉丝狂热刷分”一点来说事,5倍的好评/差评比不是这么好弄的,毕竟那些爱打低分的路人对这些9.9分番都一视同仁,直接1星。还有,每一部9.9分番都受到粉丝的热爱,又凭什么一些番会有更多粉丝爱刷高分呢?这样的刷分意愿本身就是作品优秀在某种方面的体现,尽管它的客观性确实会有所下降。
简而言之,在超高分番的评分世界里,只要没有水军,那么分数高就是“粉丝热爱”与“路人缘好”的共同体现,兼具“粉丝强推”与“大众接受”的评分标准,这对没看过番的路人而言有着独特的推荐效果。
然后呢……之前一直在说“好评”“差评”之类的,我们还是不要忘了稀有物种——2~4星评分的存在。
···在此插播一条公式,b站评分的计算方法应该是这样的:
分数 = 10 × (实星数 ÷ 总星星数)
总星星数 = 实星数 + 空星数
(1星评价 = 1个实星 + 4个空星,2星评价 = 2个实星 + 3个空星,以此类推)
一些比较苛刻的观众会仔细观看作品并指出一些不太好的地方,从而打出2~4星评分。
我们可以用这么一个通用的式子将其转化为5星和1星:
4个X星评价 = (X-1)个5星评价 + (5-X)个1星评价
(例如:4个3星评价 = 2个5星评价 + 2个1星评价)
从式子中可以看出,每4个2、3、4星评价分别对应3、2、1个1星评价,剩下的用5星补足。这种视角可以让我们顺应b站评分的"二极管"现状,在效果上将所有评分都转化为好评和差评。
通过观察一些评分理由,我们可以发现,当作品某些部分做得特别好的时候,会有更多的观众不忍心打5星以外的评分,即“瑕不掩瑜”评分现象。例如“XX方面打6星,在XX方面扣1星”的5星评价。也就是说,高分番中较少的2~4星评价代表着作品很出彩,有特色。换而言之就是比较值得去看了。同时,也体现在评分上,使得数据更高一些。

9.9和9.8的分界点在哪里?怎么知道高分番之间细微的评分差距?
从现在开始才是真正的数据分析阶段。为了让人更好理解我是怎么做的,我先举一个例子:

用浏览器(我用火狐)找到这个网页
点击“短评”
点击鼠标中键,然后将鼠标往下移
挂机25分钟,等待所有短评加载完毕
键盘敲击ctrl-s,保存网页
用记事本打开保存的html文件,复制到input.txt
使用写好的程序统计星星

对于番剧魔法少女小圆,我们得到如下结果:
空星数:871
实星数:87619
星星数:88490
评分:9.902分(使用上面的公式)
搞到这里,各位可能会有许多问号???为啥9.8分的番剧算下来是9.9分?
实不相瞒,当时我也是有问号的。
为了搞清楚这个算出来的数据与实际评分之间有什么关系,我对18部9.9分番剧和21部9.8分番剧进行了上述操作,结果如下:




以上数据,除了街角魔族第二季采集自7月5日外,时间都是7月10日。
蓝色的那两张,都是9.9分的番,在“短评估计”那一栏几乎都超过了9.9,均值9.942。
接着,黄色的两张是9.8分的番,同样“短评估计”一栏几乎都超过了9.8,均值9.866。而且,竟然有比9.9还高的,三月的狮子第二季居然算出了个9.94,为什么还是9.8分?
所谓的短评估计,指的就是通过我刚才的方法,加载完所有短评然后数星星得到的结果。
实际上,b站的短评分两种,一种有内容,一种无内容。

如果只打了星星,就是无内容短评;打完星星还写了点字,就是有内容短评。
以魔法少女小圆为例,其有内容短评只有大约17700个。可是当算上无内容短评时,数量是:

47300+个。
毋庸置疑,这个9.8肯定是通过这47300个评价综合得出的,要是使用那17700个有内容短评的数据,或许确实有偏差。
但是问题来了,偏差有这么大吗?短评估计处算出9.9,实际得分却是9.8,要如何解释呢。
在讨论解释方法之前,让我们先来回忆一下第一张图上的内容:

10.0分的作品真的不存在吗?当然不是。这里有我另一专栏的传送门,看一眼就知道了:
10分是存在的,只要第一波评分所有人都打5星,就能出来。(然后这个10.0就会引来小鬼恶意评分,一个人就可以拉到9.9分)
其次,表格1上,高木同学第三季的短评估计是9.975分,就算实际评分低一些,也应该能超过9.95,但b站的显示依然是9.9。
这两点说明什么?说明评分没有四舍五入,小数点一位后的数据直接给截断了。
因此我们要将评分公式修改:
分数 = (只保留一位小数,后面的部分扔掉)(10 × (实星数 ÷ 总星星数))
修改后的评分公式,使得9.89分的番剧会显示成9.8分(这也解释了小圆为什么会是9.8分),9.99分的番剧显示成9.9分。而只要有个4星就低于10,因此10.0分的番剧自然就无法稳定存在了。
接下来我们来关注短评估计的准确性。
从上述分析可知,显示9.9分与9.8分的界限在9.900……分这一处,但是有不少9.8分的番剧算出了高于9.9分的短评估计,且低于9.8分的短评估计较少;对于9.9分番剧也是相似的,很少找得到低于9.9分的短评估计值。
也就是说,短评估计的那个分数一般会偏高一点点,通常偏差值在-0.01~+0.03。
举个例子:当我对一部9.8分的番剧进行短评估计,得到了9.85分时,说明它的实际分数大概是9.82~9.86分,其中9.82和9.86的概率低一些。
除此之外,或许会有一些异常情况导致不准,可能是水军发了过多的无内容好评或差评。
……反正我是不清楚那个间谍过家家是发生了什么事,我算得9.696分但是显示9.8分,测量数据过于异常了所以显得格格不入。要不就把它剔除别分析了吧。