某科学的超电磁炮·番剧·弹幕词云展示

调用的接口是https://comment.bilibili.com/{cid}.xml
参考资料:
主要参考:https://blog.csdn.net/weixin_52308100/article/details/118685287
其他参考:
来自知乎:https://zhuanlan.zhihu.com/p/392931611
来自CSDN:https://blog.csdn.net/qq_39870538/article/details/124352010
来自Github:
https://github.com/SocialSisterYi/bilibili-API-collect/blob/master/docs/danmaku/danmaku_proto.md
https://github.com/SocialSisterYi/bilibili-API-collect/blob/bb437d2012e6291b38c78d42755db9d836d4975f/grpc_api/bilibili/community/service/dm/v1/dm.proto
话不多说,上结果



效果确实可以。在制作过程中对硬件的要求不高,普通的笔记本都可以做。
我主要参考的是第一篇csdn的代码,但是对DataCollation模块进行了重写,jieba库调用方法改为lcut_for_search,重写后结果如下:
path为之前爬取的弹幕数据所在地址,是一个列表,里面含有几千个弹幕字符串
然后写了一个去除单个汉字的函数:
如果不去除单个汉字,那么结果会变成这样

可以看到‘是’,‘了’,‘的’属于高频汉字,而且jieba在分词的时候也会把它们单独分出来。
顺便再说一句,没有大会员的前提下第三季的弹幕确实能爬到,但是会比较慢,而且有一定概率会报错‘不能建立新的链接’.
对于接口
https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=2&oid=745913430&date=2016-02-24
确实难做,因为还需要对弹幕文件进行protobuf解析,挺麻烦的。
对于接口(我现在用的这个)
https://comment.bilibili.com/{cid}.xml
对于弹幕是爬不满的,只能爬到一部分。三个季度下来只能通过这个接口爬取到约1.125%的弹幕,大概24万条。
本人超喜欢炮姐的~