原作者被开盒


这个评论时段的数据不能很好地证明结论,两个问题:
实验对照只在15h前后有明显区别,那个时候应该刚好是大部分大学的最后一节日间课结束。这个数据和结论是相违背的。
没有针对具体用户的跟踪,这个很可能是导致数据不理想的原因。但是跟踪在技术上很难实现。

这一点结论算是废话,这类评论就是为了讽刺时事的,而且

有选择地爬取,在这里得出的结论就没有说服力了(虽然可以推测,但这已经不算统计学了)。

这个算是个创新点,很有意思。

这里的5.08%的数据可以舍弃掉,因为占比太少,不值得单独提出。研究的主要目的是探究这一群体的特征,不是这个群体中少数人的特征。结论是句废话。

同理,结论没体现出意义。

又是5%。

然后是0.46%?

这个结论,不能由前面的数据推出。相当于把之前的60% 10% 5% 0.几% 都揉在一起了,这其实反映出了简单粗暴地把网民分为某一类的荒唐之处。

因为采样来源就是不完整的,这张PPT没有意义,存在抽样误差。

论文、答辩弄成这样肯定是不行的,一定会有人问我前面提到的问题,需要有解释。创新点有,但是不多。

这张PPT就漏掉了关键信息。重复一遍,我们研究的是这个网民群体的特征,不是这个网民群体中少部分人的特征。最终结论需要考虑总人群占比,否则没有意义。数据的呈现和描述有问题。
PPT内容没有完全贴合研究目标,或许作者在研究的过程中就没有明确目标。人工标注/判断有主观性,可操作空间很大。再加上严重的(主观造成的)抽样误差,最后的研究成果一定很糟糕。
这个研究不是很简单的事情,至少需要计科、统计、社科方面的人才,更大的成果反倒是证明了不应该随意给网民归类。
还有网友反映,哔哩哔哩的审核系统会删除/隐藏评论,这是事实。这会不会导致误差,有待研究。