【抛砖引玉】典型播放量时间序列的特征

大概是在去年二月中旬,我开始在Bilibili弹幕视频网(下简称“B站”)与新浪微博等平台分享中文VOCALOID/Synth V相关的统计、数据信息。在去年上半年,自学了本科的“统计学原理”,主要是学习了时间序列分析。之前的文章和年刊排行榜中列出了数学公式,有人吐槽会让人不想看,因此本文尽量避免公式。
什么是时间序列呢?百度百科给出了这样的解释:
时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
我们将播放量、收藏量等统计指标,按照统计时间的先后顺序排列,成为一段数列,这样就是播放量、收藏量的时间序列。
Excel是大家最熟悉,也是比较简单的数据处理软件,这里用一个截图作为例子,帮助大家理解时间序列。

在初中时,我们学习过列表法和图像法表示函数,将上述列表中的点一一描在直角坐标系中,便可以得到一张“播放量关于时间的统计图”。
在天钿Daily的网站,我们可以看到一些视频的播放量-时间统计图。下面以《Seattle物语II》为例:
(https://tdd.bunnyxt.com/sprint/AV2585185)

现在我们把思路转变一下,不研究播放量而研究播放量的增速。在我之前的文章《中文VOCALOID数据学概述》中我提及过这种方法:
正如汽车上,最大的仪表是汽车的行驶速度,而不是行驶里程,我们要把不方便研究的播放量、收藏量,转化为方便研究的播放量增速、收藏量增速。 这一思路的转变有如下优势:
①播放量、收藏量增速决定了播放量、收藏量;
②它们具有鲜明的周期性;
③它们更直观地反映了投稿的热度。
在高中,诸位学习过“打点计时器”纸带的数据处理,一共提到了三种方法,分别是直接法、逐差法、最小二乘法。
直接法的方法最为简单。因为播放量的增速 = 一段时间内播放量的增幅 ÷ 时间的长度
我们可以轻而易举地知道C3单元格里的公式是=(B3-B2)/(A3-A2)

因为B站的播放量是每75秒刷新一次的,而我们获取数据一般是60秒一次。每5分钟,也就是每300秒,播放量会刷新4次。这样,在某些分钟里,播放量没有来得及刷新,故而测得的数据与一分钟前一样。

这导致了部分“播放量增速”的单元格数据为0,因此,直接法有着它最为显著的缺点。为了避免这个缺点,我们使用“逐差法”。

使用以10分钟为跨度,逐差法得到的增速数据,避免了0的出现,而且,整体上也显得平滑。
(注:以上两个Excel公式算出来的播放量增速单位是 “播放量/日”)

以上是前言,下面开始我们的正文。

以上是一张空白的统计图。我们根据我们一步步具体的模型,去推演各种各样的播放量增速曲线。
如果播放量均匀增长,在图像上表现出来的应该是与横轴平行的直线。

考虑到一天之内,观众并不是均匀分布的,所以在一天的尺度上,播放量增速并不是均匀分布的。当然,工作日与周末、假日的曲线是不一样的。

在工作日,播放量的增速曲线大致如图所示。在早上、中午和晚上有三个高峰。这可以见于我之前的动态《平日和周末,一日内观众的分布有着显著不同》。

如果一个投稿,没有被转发、上首页、上候选词、、上热门、翻唱等,我们称之为自然状态。
在自然状态下的播放量增速,应该满足以下特点:
①非负性:播放量增速≥0,自然状态下播放量是不会单调递减的。注意,只有播放量、硬币量不会单调递减,收藏量、评论量等都会递减。
②“连续性”:虽然播放量增速是离散的,不满足数学上的连续性。但是播放量增速曲线总是平滑的。在自然状态下,播放量增速不会突然增大,不会突然减小。这里的突然,指的是发生在几分钟这一数量级上的“突然”。“连续性”一定意义上反映了歌曲热度的稳定。
③协调性:播放量总是与收藏量、硬币量、评论量、弹幕量、点赞量、分享量等数据保持协调关系,它们的比例总是在一个不大的范围内波动。有些人说:“我就喜欢看视频,不点赞不评论不收藏。”并以此为借口试图推翻协调性。
故而,这里必须澄清一个事实:大多数观众都是只看视频,不收藏不投币不评论不点赞的。你以你自己为例,并不能否认少数观众收藏、投币、评论、点赞。观察到大多数新投稿的VOCALOID/Synth V中文曲收藏量总是约等于播放量的十分之一,这意味着90 %的观众没有收藏,只有10 %的观众收藏了。举出自己的孤立,或者所谓“我朋友也都这样”,只能说明这些人属于90 %,这不妨碍另外10 %的观众。正如你不能因为自己是右利手、自己的几个朋友是右利手,而扬言“世界上没有左利手”。诚然大多数中国人是右利手的,但这不妨碍少许左利手的人的存在。

许多情况下,由于转发、上首页等,投稿出于非自然状态,大量的外来流量注入。其中最常见的是转发。我和一些人进行过多次有关于“转发”的测量,我个人认为,最为典型的是《达拉崩吧·史诗版》的转发情况:
(https://h.bilibili.com/33091417)

《达拉崩吧·史诗版》先后被ilem和洛天依、言和等Vsinger官方账号转发,在图像中表现为两个高峰。这两次转发,不言而喻,转发者的流量是远大于投稿者的,因而转发产生的作用非常明显。
经过多次的观测,可以归纳出转发的两个特点:
①播放量增速在短时间内迅速变大
②播放量增速缓慢变小
用图形来表达,大致如下图所示。

在转发后的几分钟内,播放量增速迅速增大到一个最高值,然后开始平滑而缓慢地衰减。
这里举《如见青山》的例子(https://h.bilibili.com/18866199)

转发效应带来的播放量增速与时间的关系,或满足指数模型。在文章《转发对播放量影响的数学模型满足指数衰减》中,我们拟合出了比较好的结果。
转发打破了自然状态下的“连续性”,但是并不违背“协调性”,收藏量、评论量等数据也随着转发而增加。

转发产生的播放量增速变化,在图像上通常表现为一个左陡右缓的峰,但是我们有时还能看到另外一种播放量增速不连续的现象。

这种情况通常表现为“左陡右陡”,和转发的“左陡右缓”截然不同。另一种情况很有可能是“上首页”“上候选词”等产生的额外影响。在从首页、候选词撤销之后,流量迅速减少,恢复到原来的水平,故而可以呈现出上图中右侧曲线的形式。
对于《万古生香》,在下图红框处可以看到明显的此现象。
(https://h.bilibili.com/51750964)

现在我们理一理思路,进行小结:
自然状态下,播放量增速总是平滑的。如果被转发、上首页等,“连续性”会被打破。如果是“左陡右缓”,那么是转发或类似的情况。如果是“左陡右陡”,那么是上首页或类似的情况。但是无论以上哪种情况,都只是打破“连续性”,而不能打破“协调性”。

当协调性被打破时,情况就不一样了。我们使用一种中性的词汇来描述它,正如不明飞行物(Unidentified Flying Object,UFO),我们把这种情况可以叫做“不明播放量增加”(Unidentified Acceleration of View,UAV)。

它往往有着一个明确的起止时间。如果研究收藏率,我们可以得出下图:

由于播放量的不明增加,而收藏量没有及时跟进,那么,收藏率会随之下降。UAV站台是违背协调性的。更加科学地说,就是“你不能强迫你的观众互动”。《***》是UAV状态的典型。


近期,UAV情况发生在一些作品上。在天钿Daily的网站,可以查到逐15分钟的各项数据记录:
(https://tdd.bunnyxt.com/video/AV89381143)

将其中的时间、播放量、收藏量以CSV格式下载下来。

因为是逐15分钟的,所以可以直接计算播放量增速,并且,我们也需要计算收藏率。


然后,把图像画出来。我这里没有做美化,平日里我会修改线条颜色、字体之类的。纵坐标的单位是“播放量/日”。

可以清晰地看到,在2月16日的17:00至22:30,有第一次UAV现象。在17日的1:45至3:15,有第二次UAV现象。


这两次UAV现象,从播放量增速、收藏率两个指标上,都满足UAV现象的模型。
本文纯属抛砖引玉,如有纰漏敬请斧正。用红线画的图像是定性的理论模型,如 有 雷 同 ,不 胜 荣 幸。