基于B站知识区的视频浏览量影响因素分析
摘要
自疫情时代开始,线上教育产业受阻,大量用户由于各种现实因素开始更加频繁的通过平台搜索所需要的视频。如何制作优质且被观众喜爱的视频,已经成为视频增加热度与关注、提高视频平台流量、增加视频制作者收入的关键。
本文将基于目前B站视频平台的三位知识区UP主的视频信息,在进行数据清洗与构建衍生变量之后建立LDA模型与多元线性回归模型,探讨影响视频浏览量的影响因素,并将衍生变量与个别原始变量作为自变量,浏览量作为因变量进行预测并探究其影响,基于建模结果发现观众反馈、视频长短、视频风格对知识类视频的浏览量具有显著的影响力。
本文的工作成果能为各大视频平台相应的理论基础,以及对于视频制作者如何提升浏览量作为参考;对各大视频平台如何增加流量、合理规划计划提出建议。
关键词:视频浏览量;LDA模型;多元线性回归模型

目录
1绪论
1.1研究背景与意义
1.1.1研究背景
1.1.2研究意义
1.2国内外文献综述
1.2.1国外视频浏览量影响因素相关研究
1.2.2国外评论文本分析相关研究
1.2.3国内视频浏览量影响因素相关研究
1.2.4国内评论文本分析相关研究
1.2.5小结
1.3研究内容与方法
1.3.1研究内容
1.3.2研究方法
1.4研究创新与不足
1.4.1研究创新
1.4.2研究不足
2相关理论与模型介绍
2.1评论文本分析方法
2.1.1情感分析理论与模型介绍
2.1.2 LDA主题模型和模型介绍
2.2多元线性回归预测模型
3数据处理
3.1数据采集
3.1.1数据来源与说明
3.2数据清洗
3.2.1异常值识别与处理
4构建指标与描述性分析
4.1指标构建
4.1.1生成情感得分
4.1.2生成主题
4.1.3生成其他衍生变量
4.1.4指标构建工作小结
4.2描述性分析
4.2.1基本信息
4.2.2影响因素
4.2.3视频内容
5浏览量预测模型
5.1多元线性回归模型建立与检验
5.1.1建立多元线性回归模型
5.2模型解读与应用
5.2.1模型解读
5.2.2模型应用
6总结、建议与展望
6.1主要总结
6.2主要建议
6.3研究展望
参考文献 30

1 绪论
1.1 研究背景与意义
1.1.1 研究背景
在中国互联网崛起近30年的今天,数字经济发展迅速,几乎已经渗透到了每个人的日常生活。据华经产业研究院的数据,2020年在各行业普遍衰退的大环境下,数字经济产业仍稳定增长9.5%[1]。在线文娱产业作为数字经济的一个重要组成部分,借助不断涌现的在线内容展现新形式也迎来了大发展,产生了抖音、喜马拉雅、B站等一系列受众面广、影响力大的品牌。这些品牌多以娱乐内容起家,但随着行业竞争的加剧以及用户需求的发展,也逐渐开始进入了知识传播的领域[2]。
在线文娱品牌向知识传播领域的集体扩张为知识内容的呈现与传播提供了更加丰富和有效的形式。在此之前,互联网上也存在很多知识类的内容,但是一般形式较为单一,内容也不够系统。在线文娱品牌加入后,不但知识内容的呈现形式变得更加丰富,制作知识类内容的内容生产者也有机会更加系统地呈现内容,并且有机会借助平台的推广内容扩大自身的影响力[3]。这带动了更多有能力生产知识内容的人进入行业,内容生产者数量的增多一方面促进了内容的丰富,另一方面也加剧了生产者的竞争、内容平台与用户选择内容的难度。
以B站为例,B站于2009年6月26日创立,最初B站的视频仅仅围绕着“二次元”这一主题,但由于知识领域的快速传播扩张,知识类视频开始慢慢出现在B站,但还未出现一个系统的分区。直到2016年,纪录片《我在故宫修文物》横空出世,仅凭借三集便达成了千万播放的成就,至此之后,知识类视频的产出开始变得繁荣起来。而借着这股东风,B站于2020年6月创立了知识分区,但B站当时的主流还是围绕着游戏与动漫发展,直到UP主“罗翔说刑法”的入驻才悄然改变。UP主“罗翔说刑法”于2020年3月9日入驻B站,仅仅耗费7个月,粉丝便超过了B站游戏一哥--老番茄7年的努力,成为B站史上粉丝量最高的UP主。这也意味着B站知识区在未来会发展的更加繁荣。
B站知识区发展快速,迄今为止在各UP主的努力下已经制作出非常多的优质视频,本文将对知识区法律领域的UP主进行分析,首先选取三位在知识区法律领域具有代表性的UP主,爬取其自身信息与视频信息,之后对数据进行清洗与构建衍生指标作为本文分析研究的最终数据。其次对数据进行建模,构建多元线性回归预测浏览量,并研究各变量与浏览量之间的影响因素,探究其中存在的内在关系[4]。
1.1.2 研究意义
本文的研究能够为知识类UP主,尤其是个人账号的内容制作和运营提供参考。以及对视频平台对UP主的活动方案提供方案。
在线文娱的发展,为社会提供了更多自媒体职业的岗位,但是自媒体岗位中,占据着大部分的确是自由人,即没有公司运营的个人账号。在没有公司帮助的情况下,个人想凭借视频获得大量粉丝很不现实[5]。所以本文将对知识区的视频进行分析建模,探究知识区UP主增长浏览量的方式方法,为UP主的账号运营提出合理的建议,帮助UP主更好地把握市场需求与竞争情况,清楚创作内容与创作风格,视频时间、产出频率等[6]。
本文不止对UP主的账号给出方式方法,并且对视频平台的也存在意义[7]。当UP主浏览量增加后,视频平台可根据UP主的涨粉速度、浏览量趋势制定活动或激励等,将资源倾斜于一些新星UP主。可以根据新兴UP主的视频风格、涨粉手段当做工具制定计划,并且提升整体的视频水平,提升用户体验[8]。
1.2 国内外文献综述
本部分将从国内外视频浏览量影响因素相关研究、国内外评论文本分析相关研究、文献综述三个角度对相关文献进行总结。
1.2.1 国外视频浏览量影响因素相关研究
国外的视频平台中,以YouTube规模和用户数量最大,在笔者进行文献检索时发现,很多国外学者对影响视频浏览量进行研究时,大都以YouTube平台为主要研究对象。
Christoph Seehaus[9]提出视频浏览量的大小跟视频平台直接挂钩,Christoph Seehaus将YouTube热门视频数据与其他平台视频数据进行对比发现,YouTube平台上的视频数据与传统流媒体平台视频数据存在明显差异.
Jung-Kuei Hsieh[10]同样提到病毒式营销的最新形式依赖于流媒体视频技术的发展,Jung-Kuei Hsieh搜集了热门视频平台相较于其他平台的非主流功能,并探究其这些功能对浏览量的影响,发现了YouTube和谷歌Video等视频分享网站的流行与功能的全面密不可分。而YouTube作为全球最大的视频平台,先进的交互性与观感也成为了视频浏览量的基础保证。
Xu Cheng等人[11]同样搜集到了YouTube热门视频的数据,指出YouTube中的高播放基本分为两个特点:高质量与当代热点。高质量作为保证,之后考虑制作一些喜闻乐见的话题,例如:绯闻、当红话题、冷门圈子的破圈等,原因便是此视频都存在一定的观众基础。
Nikki Serapio[12]在twitter加入视频功能时搜集其数据,分析了网络视频营销的重要因素:一是视频内容质量是视频说服和视频营销成功与否的绝对前提;二是需要提供优秀的视频发布环境。
1.2.2 国外评论文本分析相关研究
国外的评论文本的分析基本都是基于情感分类的研究,国外最常用的情感分类大多基于文本分类技术。
文本情感分类的本质是对于给定文本进行判别,判断出给定的文本为积极还是消极,因此可以将国外的评论文本分析视为一个分类问题,进而使用朴素贝叶斯,支持向量机等分类方法来解决。
Pang和Leel[13]是最早使用文本分类方法对文本的主客观分类和情感分类进行研究,采用了大量机器学习的算法。例如最大熵、支持向量机、朴素贝叶斯等,由此可见机器学习在外文的文本分析方面,有着理想的应用场景。
Ni[14]将情感分类转为了二分类问题,利用CHI与信息增益进行特征选择,并采用机器学习算法进行情感分类,并将多个分类器进行比较,筛选出了最优化的模型,这使得结果在性能和问题的范围上有了较大提升。
1.2.3 国内视频浏览量影响因素相关研究
国内的视频出现时间稍晚于国外,并且当时处于3G与4G过渡的时代,在2015年4G普及的时期,网络视频模式才真正开始蓬勃发展,以至于对浏览量的研究多集中于运营研究。
陈子燕[15]搜集了网红popi酱的视频数据,研究popi酱视频运营的成功方法与传播方式,认为增加浏览量的办法是具有准确的定位以及专业的背景,例如保持一种风格的视频效果、拥有扎实的基础功底。
杨青松[16]搜集了短视频平台如:抖音、快手等热门视频数据,从媒介融合的视角提出,视频创作提高浏览量,存在两种极端的方法,一种需要将思维放到更高的层面,以超出常人的风格与高质量的素材制作视频以此达到高播放的标准;另一种为简化思维,用最平常的素材以流水线的方式与博人眼球的标题达到高浏览量的标准。
李玉玉[17]搜集了国内各大视频平台内的热门评论与个人资料,最后认为,在视频模式日益发达的今日,还存在着一种逆向思维--图书与创作的视频相结合,发现很多人物在知名之后都存在这出书的行为,将图书与视频模式结合起来,使其粉丝群体标签性提高,从而达到增长浏览量的目的。
1.2.4 国内评论文本分析相关研究
国内的评论文本的分析跟国外相同,基本都是基于情感分类的研究,而情感分类是近年来在计算机发展快速的今天一个受到广泛关注的研究,其本质是对文本内容进行情感判别,判断为积极还是消极。
目前,国内的文本情感分类的方法主要有两种,分别为基于文本分类技术的情感分类和使用记分函数的情感分类。
娄德成和姚天昉[18]搜集了300条新浪汽车论坛的主贴并进行手工标注感情,基于对汉语句子语义词性,对文本分类技术进行研究,使用人工定义的方法来建立极性词汇表,进而用于汽车评论文本的情感分析。使基于文本分类技术的情感分类方法领域更加精细。
刘冰在[19]基于对web数据研究,研究了记分函数的准确性问题,对记分函数进行了大量的实验,使用了大量的基于记分函数的方法,例如支持向量机、朴素贝叶斯等,并尝试使用词语替代策略来提高函数的通用性,使函数的分类准确性提高。
1.2.5 小结
国外学者对于视频浏览量的研究则主要集中于平台,并且运用较多的数据统计和分析,从技术层面进行定性定量分析,且注重于案例分析,更加看重数据的严谨性,更擅长以统计学的角度总结对浏览量的影响。
国内学者对于视频浏览量的研究主要集中在运营模式分析并提出相关策略,例如对于图书类出版物视频运营的研究主要集中在以单一图书进行知名度推广以此达到提升浏览量营销策略这一点上,并未深入挖掘影响视频浏览量影响因素的深层次内容。国内的研究影响浏览量的各种因素,方法更常用观察法,即“提出问题—分析问题—解决问题”的思路,对比国外研究更加的细致。
国外学者和国内学者对评论文本的研究大都集中于情感分类,而国外对于情感分类的方法在于基于情感词汇的情感分类,而国内基本为基于文本分类技术的情感分类和使用记分函数的情感分类。总的来说,国内外的评论文本研究大多到了成熟的阶段,只是处理评论文本的方法略有不同。
1.3 研究内容与方法
1.3.1 研究内容
本文数据来自于B站三位知识区UP主。本文将通过爬取UP主的视频基本信息与个人信息作为原始数据,并对原始数据进行预处理,之后构建出衍生指标,并对指标进行可视化分析,之后构建多元线性回归模型,分析视频浏览量的影响因素,归纳出能吸引用户的视频所应具备的特点,为视频平台以及视频制作者对如何提升浏览量提供参考与建议。具体的研究内容如下:
(1)通过查阅文献描述当前国内外浏览量影响因素和对于评论文本分析的差别。
(2)对视频的基本数据进行预处理,构建衍生指标之后,对指标进行描述性分析,分析出各指标对于浏览量有何影响。
(3)构建多元线性回归模型,归纳出各变量对浏览量的影响因素。
(4)结合上述的工作,对如何提升浏览量这一问题,给出系统的建议与参考。
本文希望分析出对浏览量的影响因素有哪些,这样不仅能为视频平台的运营带来好的影响,也可以为视频制作者提升自我价值有帮助。
具体流程如图1-1所示:

(1)统计分析法:为使研究更加科学合理,从更全面的角度去发现、解决问题,本文在研究如何提升B站浏览量这一问题上,通过统计B站各大知识区知名UP主的视频基本内容与数据,进行合理的数据清洗并进行建模分析,研究他们的视频内在模式。
(2)运用机器学习算法:本文采用多元线性回归对浏览量进行预测,并研究影响因素,而多元线性回归模型属于传统的机器学习算法。
1.4 研究创新与不足
1.4.1 研究创新
本文的创新点如下:
(1)与当下环境相结合。在发展初期,知识区大多由海量的零碎知识组成,而在现在这些碎片被整合起来,形成了一个完整的系统。在这之前关于知识区如何提升浏览量这一问题文献较少,所以如何对这些数据进行分析和利用成为了当下的热点话题。而本文结合当下实时环境,为视频制作者们增加用户粘性,提供了有效的参考。
(2)具有可移植性。本文所构建的基于B站知识区视频浏览量预测模型和影响因素分析具有移植性。B站作为当今热门视频网站平台,其视频运作方式和其他很多视频网站相似,其他视频网站的制作者们也可以将本文的结论与建议作为参考。
1.4.2 研究不足
本文研究不足如下:
(1)选取样本较少。本文样本只选取了知识区法律领域三位代表性的UP主的视频,因此探究出影响浏览量因素的结果对非知名以及其他专业领域的UP主并不完全适用,需要因自身条件而加以改变。
(2)视频模式局限。B站的短视频模型并不发达,所选取UP主的视频只有长视频模式。对于在短视频模式领域的视频制作者并不太符合。
(3)指标不完善。本文选取指标只考虑B站知识区的数据,对其他平台并未爬取数据做出研究。

2 相关理论与模型介绍(公式打不上去)
2.1 评论文本分析方法
2.1.1 情感分析理论与模型介绍
情感分析是对判别文本中是否带有情感色彩的一种方法。本章节将基于弹幕与评论数据进行情感分析,分析每个视频在观众心目中的感情。
本文将弹幕与评论这类文本数据进行处理,进行评分。评分的方法将使用Python中的SnowNLP库。以官方对SnowNLP库的描述。SnowNLP是一个Python写的类库,可以对文本进行情感判别,由于自带了数据集,所以可以直接导入库并进行使用。
Python中的SnowNLP库中,情感分类的基本模型为贝叶斯模型。对于有两个类别c1和c2的分类问题来说,其特征为w1,…,wn特征之间是相互独立的,属于类别c1的贝叶斯模型的基本过程为:
其中:
SnowNLP库中存在基于京东商品评论正负评价的数据集,并且会从文件中读取每一行的文本,并对其进行情感分析并输出最终的情感区间,情感区间在0-1之间,越接近0认为越消极。反之,越接近1认为越积极。
2.1.2 LDA主题模型和模型介绍
主题模型能自动将文本语料库编码为一组具有实质性意义的类别,这些类别称为主题,而主题模型最常用的便是隐含狄利克雷分布,一般称为LDA主题模型。LDA主题模型最明显的特征是可以将多个文档自动分类为一定数量的主题。根据困惑度与一致度设定好主题个数之后,便会得到设定好的主题下面词语的分布概率,以及每个主题所对应的主题概率。
LDA主题模型采用词袋模型的形式,即将一篇文章看为一个整体的词频向量,通常假设词表大小为L,一个L维向量(1,0,0,…,1)表示一个词。由N个词语组成的评论文本记作d=(w1,w2,…,wn)
假设某一商品的评论集D由M篇评论构成,记为D=(d1,d2,…,dn)。M条评论文本集分布着K个潜在主题,记为Zi(i=1,2,3,…,k)。q为主题在文档中的多项分布的参数,a和b为狄利克雷函数的先验参数,并且服从超参数为a的Dirichlet先验分布,f为词语在潜在主题中的多项分布参数,并且服从超参数为b的Dirichlet先验分布。最终公式为:
(2-3)
其中P(wj|dj)代表词语wi归属于第s个潜在主题的概率大小,P(z=s|dj)表示第 s个潜在主题在文本dj中的概率值。
2.2 多元线性回归预测模型
线性回归模型本质是利用线性拟合的方式探寻数据背后的规律,并根据特征变量来预测反应变量。假设一个UP主有n个视频,p个影响因素,每个视频所对应的浏览量用yi(i=1,2,3,...)表示,特征变量用xj(1,2,3,...) 表示,则可以用下列的公式表达。
(2-4)
其中k1、k2、k3...则为这些特征变量前的系数,εi为随机误差项。一般通过最小二乘法和梯度下降法来求解获取合适的系数,使得实际值与预测值平方和,也即是残差平方和最小。公式即为:
其中为实际值,为预测值。
在搭建完一个模型后,还需要对模型进行评估,在本文中,选择、和值来评估模型的好坏。其中、是用来衡量线性拟合的优劣,值是用来衡量特征变量的显著性。
其中的公式为:
其中SSR为残差平方和,SST为解释平方和。
对于一个模型来说,本质上希望其实际值要尽可能的落在集合曲线上,对于来说越接近1模型拟合程度越好。
而是为了防止选取的特征变量过多而导致虚高所选取的评估方法。他在的基础上考虑到了特征变量数量这一因素,其公式如下:
其中为样本数量,为特征变量数量。可以看到此时并不会因为特征数量的增多而使结果虚高。
对于值来说就是拒绝原假设所需的最低显著性水平。值判断的原则是:人工设定一个显著水平,一般为0.5,如果值小于人工指定的,则拒绝原假设,否则接受原假设。也即是值很小,拒绝,值很大,接受。本文阈值选择0.05,当值小于0.05时,就认为特征变量与目标变量有显著相关性。

3 数据处理
3.1 数据采集
3.1.1 数据来源与说明
本文数据来源于国内视频平台bilibili网站,俗称B站。本文选取了三位知识区法律领域代表性UP主,分别为“罗翔说刑法”“侯朝辉律师”“俏佳人xxx”。“罗翔说刑法”为B站粉丝数最高的自由人UP主,“侯朝辉律师”视频的更新频率非常之快,“俏佳人xxx”在进入B站半年便达到百万粉丝,涨粉速度在知识区这一领域非常快,所以本章节选取这三位UP主作为数据来源。
爬取三位UP主基本信息与其视频信息,如表3-1,表3-2所示。
表3-1 UP主基本信息
UP主名称 粉丝量(单位:万) 视频数量
罗翔说刑法 2544.2 287
侯朝辉律师 57.7 1361
俏佳人xxx 256.3 49
表3-2 视频基本信息
变量名 详细说明 取值范围 变量类型
UP主名称 三位UP主姓名 罗翔说刑法
侯朝辉律师
俏佳人xxx 文本变量
标题 每个视频的标题 无 文本变量
浏览量 每个视频的浏览量 1423-23890876 定量数据
视频时长 视频时长 00:04-75:17 时间数据
视频发布日期 视频发布到B站的日期 2020-6-10
-
2022-12-15
是否合作 视频是否与其他UP主或官方合作 0:未合作
1:合作 定性数据
视频简介 视频基本内容 无 文本变量
点赞数 观众反馈 65-2812268 定量数据
硬币数 0-1540945
收藏数 4-639221
转发数 0-337822
弹幕数 1-242260
评论数 2-68822
在B站,存在着删评机制。即是UP主发现言论不合理规范会删除评论或弹幕的机制。所以在爬取具体评论和弹幕时,会出现所爬取数量略低于原本数量的情况。
在建立模型的章节将以浏览量作为因变量,衍生变量与个别原始变量作为自变量建立多元线性回归模型。浏览量为本文要预测的变量,视频时长、视频发布日期可以说明视频长短、存在时间对浏览量的影响,是否合作可以说明与其他UP主或官方合作对浏览量的影响,视频简介可以说明视频的基本内容,对于点赞数、硬币数、收藏数、转发数、弹幕数、评论数这种观众反馈,可以看出观众对视频的喜爱程度。
3.2 数据清洗
3.2.1 异常值识别与处理
异常值指的是数据中过于明显的偏离原样本的其余观测值的数据。图3-1展示了三位UP主视频对数浏览量的分布情况。可以看到其中存在一些异常值。

将图3-1超出上下边缘的点定为离群点,超出上下边缘便认为是异常值,之后对异常值进行标记,然后返回其索引查看分布,如表3-3所示:
表3-3 浏览量异常值分布表
UP主姓名 视频总数 异常值数量
罗翔说刑法 287 3
侯朝辉律师 1361 16
俏佳人xxx 49 3
从表3-3可以看出:共计22个异常值,为确保后续建模的严谨性,将22个异常值删除。

4 构建指标与描述性分析
4.1 指标构建
4.1.1 生成情感得分
本文在3.2已经对数据进行了基本的清洗,但像弹幕与评论为非结构化数据,不便进行建模,因此需要将非结构化数据处理为结构化数据,本章节将对文本变量构建指标,将每个视频的弹幕与评论文本进行合并并计算情感评分,之后除以弹幕与评论数量取得平均值作为其视频的最终结果。
本文使用SnowNLP库对文本数据进行感情分析,为了提升分词效果,对SnowNLP库做出以下优化:
(1)将SnowNLP分词器切换为jieba分词。
(2)将pos(积极文本)和neg(消极文本)替换为知网HowNet情感词典。
通过上述两点对SnowNLP模型进行优化后对弹幕与评论进行情感分析,得到最终结果如图4-1所示:

从图4-1可以看出三位UP主的评分相差无几,得分均值相近,且大都分布在0.6这一区域。说明知识区UP主的弹幕与评论对内容的反馈相对正向,且态度比较集中。其次三位UP主的分散程度不一,“侯朝辉律师”最分散,“罗翔说刑法”与“俏佳人xxx”基本相同最为收紧。考虑到“侯朝辉律师”制作的视频数量远远超过其他两位UP主(见表3-3),该UP主评论和弹幕情感分分散可能与其需要大量制作视频,对于部分视频质量把控不够严格有关,也可能与其视频多讨论热点社会新闻、更易激起用户情绪有关。本文后续将通过文本分析方法对此进行进一步探索。
4.1.2 生成主题
在本章节将通过主题分析,进一步探究知识类视频目标群体的兴趣点与关注点。
由于文本数据较多,于是对弹幕评论这类非结构化数据首先进行TF-IDF建模提取关键词减少工作量,之后在关键词的基础上选取B站历年热门弹幕作为停词表[20]构建LDA主题模型。
以各个UP主合并后的弹幕与评论通过计算困惑度与一致度并进行可视化来确认主题个数。如图4-2所示:

由于文本数量巨大,主题数越多困惑度越高,一致性越低,因此在本章节将主题个数人工指定为5。
确定了主题个数后,基于每个UP主的弹幕与评论文本进行LDA建模,结果如表4-1、表4-2、表4-3所示:
表4-1 罗翔说刑法评论与弹幕主题
主题编号 主题 关键词
主题一 风格主题 哈哈、刑法、犯罪、狂徒、法外、字幕、战术、喜欢、狗头、自由
主题二 流行词汇 老师、张三、谢谢、DOGE、罗翔、感觉、世界、汪、我悟了、感谢
主题三 互动建议 BILIBILI、弹幕、视频、辛苦、一种、建议、作业、义务、好家伙、学生
主题四 视频内容 学生、哔哩、法律、乾杯、孩子、刑法、保护、哲学、好像、知识
主题五 讨论内容 动物、真的、直播间、道德、社会、正义、人类、真实、地方
表4-1展示了从UP主“罗翔说刑法”视频评论与弹幕中提取的主题,其中中主题一和主题四展示了风格主题与视频内容,表明了“罗翔说刑法”具有良好的知识储备与独特的风格,制作出内容优秀的视频是UP主最重要的素养。并且可以看出“罗翔说刑法”的视频内容大都为刑法案件,并且风格较为严肃。
其中主题二和主题三展示了流行词汇与互动建议,表明“罗翔说刑法”的视频有着良好的观众反馈,在弹幕的互动中例如:“DOGE”“BILIBILI”“我悟了”等词语为表达感受时常用的网络热门词,也有很多如:“辛苦”“谢谢”等与谢意和思考关联的词汇,说明“罗翔说刑法”的视频深受观众喜爱,也说明了视频与观众存在良好的互动反馈。
其中主题五展示了“罗翔说刑法”视频的讨论内容,即是观众在观看视频时的讨论情况,从关键词可以看出都是一些正向的词汇,例如:“道德”“正义”。说明“罗翔说刑法”的视频讨论内容良好且为正向讨论。
表4-2 侯朝辉律师评论与弹幕主题
主题编号 主题 关键词
主题一 视频内容 哈哈、好家伙、考古、老师、犯法、真的、中国、杀人、威慑、不算
主题二 其他 地方、热乎、分钟、500、日本、学校、肯定、锦旗、解锁、皮肤
主题三 视频建议 嘻嘻、内行、直呼、律师、离谱、通刷、紧急、避险、法律、卧槽
主题四 所选主题 违法、每日、这是、美国、好事、犯罪、脑血栓、十年、老婆、上天
主题五 流行词汇 DOGE、国家、死刑、监狱、爷青结、孩子、陨石、正道、我要、建议
表4-2展示了从UP主“侯朝辉律师”视频评论与弹幕中提取的主题,其中主题一与主题三展示了视频内容与视频建议,说明“侯朝辉律师”的视频内容较为轻快,从关键字:“哈哈”“嘻嘻”可以看出无论是视频内容还是观众的反馈都以轻快的风格为主,也说明“侯朝辉律师”的视频内容有了自己独特的风格。
其中主题四展示了所选主题,从关键字:“违法”“好事”“犯罪”等词汇可以看出“侯朝辉律师”视频所选用的主题非常宽泛,并不像“罗翔说刑法”主要以刑法案件为主,说明“侯朝辉律师”的视频更多以社会事件为主体。
其中主题五展示了流行词汇,关键词有许多B站的热门词语,说明“侯朝辉律师”视频的观众反馈良好,这也同样说明了观众对“侯朝辉律师”视频的喜欢。
表4-3 俏佳人xxx评论与弹幕主题
主题编号 主题 关键词
主题一 视频风格 唐哥、救命、UP、锄禾日当午、耳钉、客家人、视频、道理、卧槽、发现
主题二 视频内容 坐牢、张律师、嬉皮笑脸、朋友、小唐、眼镜、小何、干嘛、可爱、离谱
主题三 流行词汇 DOGE、、BUSHI、真的、地方、张三、省流、喜欢、封面、救赎、法律
主题四 生活内容 哈哈哈、俏佳人、律政、好帅、真实、活动、康哥、表情、生活
主题五 幽默风趣 卧槽、老师、律师、好像、罗翔、感觉、实践、法师、老板、不行
表4-3中展示了从UP主““俏佳人xxx””视频评论与弹幕中提取的主题,其中主题一展示了视频风格,其中关键词:“唐哥”,为“俏佳人xxx”的口头禅,他用幽默风趣的音调说出这句口头禅,已经深入粉丝的内心,说明“俏佳人xxx”的视频以形成了幽默风趣的风格。
其中主题二展示了视频内容,说明“俏佳人xxx”的法律视频讲解较少,多数以生活为主。原因为关键字并无太多法律相关内容,反而生活方面居多,说明“俏佳人xxx”虽然为律师但是更多是分享生活趣事。
其中主题三展示了流向词汇,从关键词可以看出与其他两位UP主情况基本一样,观众反馈良好。
其中主题四展示了生活内容,从关键词:“俏佳人”“律政”“生活”可以看出,“俏佳人xxx”的视频更多的是生活视频,这与主题二的分析一致。
其中主题五展示了幽默风趣,例如关键词:“法师”,指的是学法的律师。从这些词汇中可以体会到“俏佳人xxx”视频的风趣幽默。
从三位UP主的主题分析中可以看出,三位虽然都是知识区法律领域UP主,但视频内容并不相同,“罗翔说刑法”的视频内容为刑法,“侯朝辉律师”的视频内容多种多样,涉及考古、犯罪等内容,“俏佳人xxx”的视频内容更多的是生活内容。但三位UP主的主题都存在“流行词汇”这一主题,说明三位UP主的视频都深受观众的喜欢。
建立完成LDA主题模型后,根据模型结果生成各视频在每个主题上的得分,以每个主题所对应的每个UP主的每条视频中弹幕与评论文本中出现的次数,除以该UP主每条视频的弹幕与评论的总数量,做为该视频的主题得分。其结果如图4-3所示:

从图4-3可以看出,“罗翔说刑法”的主题二与主题四得分非常高,所对应的为流行词汇与视频内容,“罗翔说刑法”视频中存在着很多对刑事案件的故事,“罗翔说刑法”会用较多流行词汇去修饰,例如犯人的名字永远是张三,为严肃的视频增添了一丝幽默的色彩,而视频内容得益于“罗翔说刑法”的知识量与经验,使视频内容更加丰富。
“侯朝辉律师”五个主题得分都非常平均,原因分析为“侯朝辉律师”的视频多以社会日常热点为主导致内容不一,并且更新频率过快,便造成了主题得分基本相同的结果。
但也说明了“侯朝辉律师”视频无论是视频内容还是其他都很全面。
“俏佳人xxx”的主题四与主题五得分很高,所对应的为生活内容与风趣幽默,说明“俏佳人xxx”的视频内容多为生活内容视频,并且幽默风趣,说明“俏佳人xxx”对于知识类视频,更喜欢发布幽默风趣的生活类视频。
4.1.3 生成其他衍生变量
原始数据中存在着一些结构化变量,但并不是适合直接放入模型中,因此在考虑这些结构化数据中,需要进行一些基本处理和构建衍生变量。
(1)构建比率衍生变量
用户发弹幕、留评论等行为表明了其被内容引发了交流的需要,有更多这类行为的视频一般更有可能受到更广泛的欢迎,从而获得更多的浏览量。但是弹幕数、评论数等原始变量随浏览量逐步增长,无法支持视频上线早期作为预测其后期浏览量的要求。如果假定会引发用户交流需求的视频无论是在上线后的哪个时间段都会以相似的程度引发用户的交流需求,那么可以将弹幕数、评论数等绝对量指标,转化为弹幕率、评论率等相对数指标,这样就可以用视频上线早期的这些相对数指标来预测其后期的浏览量。具体的处理方法是,弹幕率等于弹幕数除以浏览量;其他涉及到类似处理的指标还有点赞、硬币、收藏、转发、评论。
(2)转换时间变量格式
视频上线后每天都会被观众播放,所以浏览量也会受到上线时长的影响。根据视频发布日期计算视频上线距今的时间,单位为日。原始数据中视频时长的格式为“分:秒”,为后续建模方便,将其转化为“秒”。
(3)编码
原始数据中存在变量的数据只有几个类别,例如:是否合作只存在两种类别,是代表本视频与其他UP主合作发表,否代表本视频由自己单独发表,将此变量用0-1定性数据进行代替,0代表本视频单独发表,1代表本视频合作发表。如表4-4所示:
表4-4 编码表
变量名称 变量名称 衍生变量
是否合作 类别分类 0=否,1=是
4.1.4 指标构建工作小结
在4-1章节构建了衍生变量,将文本类非数据化结构进行情感得分和确认主题,转化为了结构化数据。之后将观众反馈类数据,如:弹幕数、评论数。进行处理转化为了比率,再将时间格式类变量经过计算转化为数值型数据,最后将少数类别变量用0-1代替,转变为了定性变量。具体数据说明如表4-5所示:
表4-5 数据说明表
变量分类 变量名 变量说明 取值范围
因变量 对数浏览量 视频浏览量的对数 7.2-16.99
自变量:视频属性 粉丝量 三位UP主粉丝数量 罗翔说刑法:2544.2万
侯朝辉律师:57.5万
俏佳人xxx:256.3万
视频时长 视频总时长,单位:秒 4-13027
视频发布日期 视频发布距今时长,单位:天 151021
是否合作 0:非合作视频
1:合作视频 0 罗翔说刑法:233
侯朝辉律师:1346
俏佳人xxx:44
1 罗翔说刑法:54
侯朝辉律师:1
俏佳人xxx:3
自变量:视频互动 点赞率 每种互动量除以视频浏览量后得到 点赞率:30.65-973183.78
硬币率:0-533243.16
收藏率:1.87-222958.97
转发率:0-116903.11
弹幕率:0.43-85494.73
评论率:0-23815.82
硬币率
收藏率
转发率
弹幕率
评论率
自变量:弹幕与评论信息 弹幕评论情感分 范围为0-1,越接近1越积极,越接近0越消极 罗翔说刑法:0.491-0.685
侯朝辉律师:0.571-0.772
俏佳人xxx:0.519-0.656
罗翔说刑法:主题一-风格主题
每个主题关键词在对应UP主弹幕、评论文本中占总数比重 0.012-0.195
罗翔说刑法:主题二-流行词汇 0.207-0.034
罗翔说刑法:主题三-互动建议 0.004-0.009
罗翔说刑法:主题四-视频内容 0.019-0.034
罗翔说刑法:主题五-讨论内容 0.009-0.022
侯朝辉律师:主题一-视频内容 0.003-0.006
侯朝辉律师:主题二-其他 0.001-0.010
侯朝辉律师:主题三-视频建议 0.004-0.009
侯朝辉律师:主题四-所选主题 0.003-0.009
侯朝辉律师:主题五-流行词汇 0.006-0.020
俏佳人xxx:主题一-视频风格 0.008-0.026
俏佳人xxx:主题二-视频内容 0.023-0.039
俏佳人xxx:主题三-流行词汇 0.013-0.015
俏佳人xxx:主题四-生活内容 0.022-0.053
俏佳人xxx:主题五-幽默风趣 0.030-0.053
4.2 描述性分析
本章节主要对所爬取的三位UP主的基本信息与观众反馈部分进行可视化,加强信息传递效率,通过图像可视化进行分析,使繁多的数据更容易吸收和掌握信息,从而分析出各个UP主之间对提高浏览量的各种方法。
所选用的三位UP主分别为:“罗翔说刑法”“侯朝辉律师”“俏佳人xxx”。“罗翔说刑法”为B站粉丝量最高的自由人,“侯朝辉律师”在知识区有着超高的视频数量,“俏佳人xxx”以幽默风趣的风格在B站仅以半年的时间便达到了250w的粉丝量,三位UP主在知识区都具有代表性的力量。
4.2.1 基本信息
由于浏览量的大小会根据UP主自身的因素而改变,例如:UP主本身的粉丝量越多,相对应的浏览量也会越高。并且浏览量会根据UP主每个视频本身的因素而改变,例如:视频时长、弹幕率、评论率、点赞率等。所以本章节将所选取的三位代表性UP主的基本信息进行可视化分析,探究其分布与意义。

通过图4-4可以看出:所展示的是三位UP主的粉丝量对比图,可以看出“罗翔说刑法”的粉丝量较其他两位UP主压倒性的高。但结合图3-1,其视频浏览量与其他两位UP主相比却没有什么悬殊的差别,说明粉丝量并不是决定浏览量高低的原因。“俏佳人xxx”和“侯朝辉律师”分别以幽默风趣的风格和高度的更新频率的弥补了自身粉丝数的劣势,证明了粉丝数并不是高浏览量的关键之一观点。

从图4-5可以看出:“罗翔说刑法”的视频时长要高于其他两位UP主,“侯朝辉律师”与“俏佳人xxx”的视频多以“短视频”的形式为主。

从图4-6可以看出:“罗翔说刑法”的弹幕率和评论率都很可观,说明“罗翔说刑法”的视频互动性很高,“侯朝辉律师”弹幕率不高但是评论率很高,“俏佳人xxx”无论弹幕率还是评论率相比其他UP主都较低,说明视频的互动性不高。

从图4-7可以看出:“罗翔说刑法”和“俏佳人xxx”的所有属性都很可观,说明“罗翔说刑法”和“俏佳人xxx”的视频质量很高,而“侯朝辉律师”只有点赞率很高,说明在视频质量方面并不如其他两位UP主。
4.2.2 影响因素
在探讨了UP主与视频本身的基本因素后,将浏览量作为本文的研究目的,对其他变量与浏览量之间进行可视化分析,分析其对浏览量的影响因素。

从图4-8可以看出:“侯朝辉律师”与“俏佳人xxx”在最开始的时候浏览量都会较低,但随着时间的推移浏览量会迎来一次高峰期。但对于“罗翔说刑法”这样本身就很有知名度的UP主来说,最开始便会有很高的浏览量,之后随着时间的推移慢慢趋于稳定。于是得出结论,浏览量随着时间的推移会越来越高,但并不是绝对的,还与UP主本身的知名度有关。

从图4-9可以看出:三位UP主视频时长在小于10分钟时浏览量相比其他时间浏览量最高,说明“短视频”模式下的浏览量要比“长视频”模式要高。因此UP主在制作视频时可以控制视频时长在10分钟以内。

从图4-10可以看出:三位UP主的合作视频浏览量都低于未合作视频。在观看了与其他人合作所制作的视频中,多数与讨论当代热点事件为主。可以看出UP主为了配合其他合作UP主,会以一种更加严肃的态度去对待,而取消了自己以往的风格,所以在UP主制作视频中,保持自己一直以来的风格更加的重要。
4.2.3 视频内容
探讨了基本信息与对浏览量的影响因素后得知,视频内容对浏览量存在着影响,因此本章节对三位UP主的视频简介进行分词,在分词结果中去除三位UP主共有的高频词,然后分别绘制每个UP主特有高频词根的词云图,如图4-11~4-13所示,以探索每个UP主视频内容方面的特色。



图4-13 俏佳人xxx视频简介特有高频词词云图
从图4-11可以看出:“罗翔说刑法”的视频,主要所讲为犯罪、法律等,这也与UP主本身的专业知识过硬有关,并且在词云图上方存在“聊聊”,“讲讲”字样,说明“罗翔说刑法”的视频内容有很多的刑事案件,视频风格非常严肃。
从图4-12可以看出,在词云图中间有“违法”案件,结合整张词云图可以看出“侯朝辉律师”的视频大多讲一些生活中的违法案件,视频风格比起“罗翔说刑法”的风格更加随和一点。
从图4-13可以看出:“俏佳人xxx”的视频比起那些社会案件,“俏佳人xxx”更喜欢讲一些生活内容,词云图中存在“考研”“离谱”“工作”等字样,可以风格并没有像“罗翔说刑法”的严肃,而是更加轻松幽默。
总结三位UP主的视频简介,可以得出为了提升浏览量,需要自身专业知识过硬,还可以讨论当今社会的主题,并且自身的视频并不需要太过严肃,在保证视频质量的前提下,可以使用幽默风趣的风格来制作视频。

5 浏览量预测模型
5.1 多元线性回归模型建立与检验
5.1.1 建立多元线性回归模型
将数据进行拆分,分为训练集与测试集,拆分比例为7:3,并基于训练集建立模型。
本章节将浏览量取对数作为因变量,由于三个UP主粉丝基数不同,所以对应的点赞率、收藏率等相差较大,所以点赞率、收藏率、投币率、转发率、评论率、弹幕率6个范围将相差太大,故本章节对此6个变量进行对数变换。
在确立模型公式后进一步输出回归模型的参数显著性时发现模型型存在明显的多重共线性。基于表4-5建立模型,并通过逐步回归的方法进行变量选择,模型结果如表5-1所示:
表5-1 回归模型结果
变量分类 自变量 回归系数 P值
自变量:视频互动 对数(点赞率) 0.0002 0.000
对数(硬币率) 0.0002 0.000
对数(弹幕率) -0.0001 0.007
对数(评论率) 0.0009 0.000
对数(收藏率) 0.0003 0.000
对数(分享率) 0.0006 0.000
自变量:视频属性 视频发布日期 0.0011 0.000
弹幕评分 1.2765 0.012
视频时长 -0.0002 0.002
自变量:弹幕与评论信息 罗翔说刑法:主题一-风格主题 285.8677 0.000
侯朝辉律师:主题四-所选主题 -398.2261 0.000
侯朝辉律师:主题一-视频内容 291.4233 0.000
罗翔说刑法:主题二-流行词汇 180.6107 0.017
罗翔说刑法:主题四-视频内容 116.4044 0.000
俏佳人xxx:主题二-视频内容 245.0950 0.000
侯朝辉律师:主题二-其他 760.9112 0.000
侯朝辉律师:主题三-视频建议 -138.1983 0.476
俏佳人xxx:主题一-视频风格 -101.9911 0.108
R2:0.711
Adj.R2:0.708
Prob (F-statistic):0.000
基于表5-1所示模型检验可知,由于数据量较小,仅达到0.711。为了防止变量过多过拟合,查看达到了0.708,说明模型拟合的程度一般,但在此数据量的条件下结果也可接受,检验的值为0,说明模型整体显著。
对训练集和测试集计算均绝对百分比误差(MAPE)查看拟合优劣。经过计算,测试集的MAPE值为32.11%,训练集的MAPE值为31.95%,说明模型的拟合一般,但也在可以接受的误差之内。
5.2 模型解读与应用
5.2.1 模型解读
本章节将0.05作为阈值,当值小于0.05时认为自变量与因变量具有显著相关性。从表5-1可以得出
(1)点赞率、硬币率、收藏率、分享率、评论率都是正相关且显著,说明这些变量越高浏览量越高。而弹幕率为负相关的原因可能是B站的收益与浏览量挂钩,但却不会收到弹幕数量的影响,考虑到B站必须通过入站考试成为会员才可以发弹幕,所以弹幕率系数为负可能是受到了B站机制的影响。
(2)由于三位UP主的视频都是与法律有关,弹幕评分为正相关且显著,说明良好的评论氛围会影响到浏览量的高低,弹幕越积极,浏览量越高。这也侧面说明了良好的观众反馈是高浏览量的基础。
(3)视频越早发布,浏览量越高。由于时间的积累,浏览量会越来越高,例如一些社会热度时间,在过了时间段热度便会下降,所以视频需要赶在社会热点的时间段内发布。
(4)视频时长越短,浏览量越高。视频时长为负相关且显著,说明“短视频”模式更受观众的喜爱,所以UP主为了浏览量可以将自身视频模式往短视频的风格上改变。
(5)视频主题越明确,浏览量越高。主题得分几乎都是正相关且显著,说明视频主题越明确,浏览量越高,例如:“罗翔说刑法”主题四得分正相关且显著,说明视频内容主题得分越高,也即是内容越优质,视频浏览量越高。
5.2.2 模型应用
本章节将结合模型结果给出应用,具体说明如下:
(1)互动。观众反馈是非常重要的数据,所以与观众互动是必不可少的环节。在了解B站的机制后,UP主在评论区顶置自己或评论区热门评论来增加互动性。对于弹幕来说可以设置弹幕提问,观众在互动之后会自动发送弹幕。也可以制作片头片尾,暗示观众点赞投币收藏转发。
(2)作者本身。视频作者的视频受众需要分清,对于B站而言大多是青少年群体,所以视频风格与话题也要符合青少年口味。在观众关注UP主之后可以设置自动提醒,这样观众能够在作者发布新视频时收到提醒,因此作者的粉丝数目越多,浏览量越高,创建的视频越容易获得更多关注度。但并不意味着UP主越“勤劳”,创建的视频浏览量就会越高,例如样本中“侯朝辉律师”总共投稿1300余条视频,但浏览量远远不如只发了半年视频的“俏佳人xxx”,所以频繁投稿最终只会适得其反,所以视频需要沉淀,需要掌握投放时机,不能因为过于看重频率而忽视了质量。因此对于UP主,应该努力增加自己的粉丝数,提高质量,尽量控制投稿数。
(3)视频本身。“罗翔说刑法”作为B站粉丝数最高的自由人,其浏览量也是非常可观,但是“罗翔说刑法”是凭借过人的专业知识与先前上课积累的人气才有了今天的爆火。对于普通的UP主而言,一个好的视频风格和话题对提升浏览量有很大的作用。以“俏佳人xxx”为例,幽默风趣的视频风格吸引了很多人的关注,在半年的时间粉丝量便达到了100万。B站的用户大部分是青少年,所以对于这一类关注社会的群体来说,当今社会的热门话题便有了讨论的良好环境。以“侯朝辉律师”为例。热门话题永远是视频的核心,加上自身的专业知识,在B站的知识区受到了广大的好评。
(4)发布时间。互联网的记忆是短暂的,很多视频的内容都是当下的实时热点相关的内容,所以需要发布时间先不要在热点事件的时间段内发布,越早越好。
(5)视频时长。B站虽然是以长视频为主的视频网站,但在当下快节奏的社会中,“短视频”的快餐模式更适合增加浏览量,所以在制作视频时最好控制视频时长,以“短视频”为主。
(6)平台。对于平台来说,可以根据UP主的各项数据进行资源倾斜。例如:某UP主近日浏览量增加,但点赞数、硬币数等却在下降,有可能该UP主陷入了舆论风波,可以减少对其的资源投入。对于一些中小型UP主,根据近期的数据趋势可以判断为是否为新兴UP主,对于新兴UP主可以进行适当资源倾斜。

6 总结、建议与展望
6.1 主要总结
本文利用B站知识区三位代表性UP主数据作为原始数据;首先对原始数据进行异常值处理;之后构建衍生变量,进行情感分析与LDA建模;然后通过绘制箱线图来查看数据基本信息的分布,之后绘制直方图与折线图查看变量对浏览量之间的关系,最后对样本数据构建多元线性回归寻找深层次规律,查看模型拟合程度,探寻出高浏览量视频所应具备的特点,为平台以及UP主提供提高浏览量的对策与建议。
所得主要结论如下:
(1)观众反馈。三位UP主基本信息的共同特点为:观众反馈都很可观,例如:评论率。
(2)发布日期。视频发布日期并不会随着时间推移无限增加,但大体来说越早发布浏览量越高。
(3)视频时长。对于视频时长来说,短视频的模式要比长视频的模式浏览量更高。
(4)视频风格。轻快的视频风格更迎合观众的口味。
(5)视频质量。高质量视频浏览量更高。
(6)视频合作。未合作的视频要比合作的视频浏览量高。
(7)平台。根据UP主各项数据制定合适的活动或计划。
6.2 主要建议
通过上述主要结论和结合平台实际状况,主要给出以下建议:
(1)良好的观众反馈。与观众保持着良好的互动是高浏览量的基础。三位UP的共同特点便是观众反馈的数值都很高,例如:评论率。
(2)发布日期需要结合当时热点事件。互联网的记忆是短暂的,很多视频的内容都是当下的实时热点相关的内容,所以需要发布时间先不要在热点事件的时间段内发布,并且越早越好。
(3)视频时长。本文发现视频长短会影响浏览量的变化,“短视频”模式下浏览量更高,因此在制作视频时可以控制视频长度,缩短视频时长。
(4)视频风格。在制作视频时可以变换自己的风格,使视频变得幽默风趣。
(5)视频质量。“罗翔说刑法”之所以可以拥有如此高的浏览量视频,其中最大的原因便是高质量的视频,所以UP主需要努力提升自己的专业知识,制作高质量视频。
(6)视频合作。对于拥有知名度UP主来说,本文发现未合作的视频要比合作的视频浏览量高,并不会像想象中增加浏览量,因此在有了粉丝基础的前提下,单独发布视频是较好的选择。
(7)平台。对于大型UP主探究其近期的各项数据,如有较大变化判断是否为良性变化,如若为良性便加大资源投入,反之减少。对于中小型UP主,查看近期各项数据趋势,如有增长明显则判断为新兴UP主,加大资源倾斜。
6.3 研究展望
知识永远是最可靠的朋友,由于B站知识区的建立时间较短,本文也存在着一些不足与展望,期待未来知识区可以更加繁荣。
研究展望:
(1)本文数据来源于B站,并未选取其他平台网站的,虽然国内的视频网站盈利模式与内容基本相同,但结论移植到其他平台还是会存在些许差异,未来将研究更多的视频网站填充不足。
(2)本文选取了B站三位知名UP主,其都存在深厚的粉丝基础,对于其他中小微型的UP主参考有限,未来会研究更多的UP主,对其进行更加细致的分类。
(3)本文所选用的三位UP主都来自知识区法律领域,对其他知识领域的UP主并未做出分析,其他领域的UP主在参考本文时准确率会下降,未来会将更多领域的UP主进行分析,使本文更加全面。

参考文献
[1]万苗苗.期望确认模型视角下社交化网络学习平台持续使用意愿研究[D].广东外语外贸大学,2019
[2]刘洋.后疫情时代泛娱乐视频网站盈利模式评价及优化策略研究——以哔哩哔哩为例[C].郑州:中国学术期刊电子杂志社,2022:51~55
[3]韦力涵.高传播力视频特征研究—基于B站高传播力视频数据分析[A].中国互联网络信息中心.中国互联网络发展状况统计报告[C].江西高效出版社,2022
[4]李根强,于博祥,邵鹏等.网络嵌入视角下B站科普视频扩散的影响因素研究[D].新乡医学院管理学院,2022.
[5]飞鱼.2019-2020中国文娱行业发展现状及前景分析[J/OL].一艾媒咨询,2022.https://www.iimedia.cn/c1020/70577.html.
[6]萧勋灿,钟纯宜,宋倬君等.B站优质线上教育视频浏览量影响因子的多维度分析[D].佛山科学技术出版,2022
[7]陈明红,黄嘉乐,方世深等.弹幕视频浏览量影响因素与组态效应[D].河南财经政法大学,2021-06
[8]缪依桐.主流媒体B站账号的传播策略研究[D].吉林大学,2017
[9]Christoph Seehaus.You Tube Video marketing[J].US Asset Appraisal, 2018.8(15):79~102
[10]Jung-Kuei Hsieh.Exploring the disseminating behaviors of eWOM marketing persuasion in online video[J].LLC,2012.12(7):114~118
[11]Xu Cheng.Understanding the Characteristics of Internet Short Video Sharing: A YouTube-Based Measurement Study[D].ACM,2018
[12]Nikki Serapio.Designing for Video Engagement on Social Networks : AVideo Marketing Case Study[D].ACM,2021
[13]Pang B, Lee L, Vaithyanathan S. Thumbs UP?: sentiment classification using machinelearning techniques[C]||Proceedings of the ACL-02 conference on Empirical methods in natural language processing -Volume 10.Association for Computational Linguistics,2002: 79-86.
[14]Ni X, Xue G, Ling X, et al.Exploring in the weblog space by detecting informative and affective articles[C]||Proceedings of the 16th international conference on World Wide Web. ACM,2007: 281-290.
[15]陈子燕.视频网站的商业视频研究[D].百度文库,2014
[16]杨青松.基于移动短视频的出版物推广和运营模式研究[D].北京印刷学院,2020
[17]李玉玉.在线评论对网络产品销量的影响研究——基于评论数量、评分与评论情感的实证分析[D].重庆大学出版社,2020
[18]娄德成,姚天.汉语句子语义词性分析和观点方法的研究[J].计算机应用,2006.70(4):2622~2625
[19]刘冰.Web数据挖掘:探索超链接内容和使用数据[D].美国学术出版社.2003
[20]李露萍.囍”至“爷青回”:从2017-2020年B站年度弹幕探析青年亚文化的认同与发展[J].江西青年职业学院,2021,51-52