某科学的超电磁炮·番剧·弹幕词云展示2
2023-03-13 01:52 作者:Because6666666 | 我要投稿

本次是接续上次专栏,在后续开展的一些研究。
根据github上的bilibili-api项目,我们可以轻松拿到prorobuf弹幕数据,具体不再这里展示,感兴趣的可以自行前往github搜索。
在第一季超炮中总24集一共获取到了弹幕数据共计2230528条(223万),相比较用之前的接口获取的数据显然更多了,占比官方给出的弹幕数量(1302.9万)的比例为17%。在个人笔记本上面跑的话花了大概半个小时到一个小时的样子。在后面数据的处理中间我发现个人的笔记本带不动这么多的弹幕数据,做不了词云了。做数据处理(比如分词、去单字)非常吃电脑的内存,等到做词云的时候更是一场灾难。我电脑的内存大小为16G,跑数据的时候从任务管理器还可以看出系统还压缩了很多的内存的数据来腾出空间。因此我打算放弃从这么多的数据中做词云。
但是获取的数据在这里公开给大家。注意,本次数据集仅包含弹幕内容,不含弹幕发送者的任何信息。
百度网盘地址如下:
链接:https://pan.baidu.com/s/1SNAubqRz2bFby1uRUgf63g?pwd=qh6g
提取码:qh6g
数据集说明:
第一季、第二季、第三季文件夹内的数据集是通过xml接口获取的,也就是上一篇专栏所用的数据集,1.2.txt为本次研究中所获取的弹幕数据,1.3.txt是通过python的jieba库分词后的字符串数据,再往后就做不下去了。