欢迎光临散文网 会员登陆 & 注册

某科学的超电磁炮·番剧·弹幕词云展示

2023-03-11 00:15 作者:Because6666666  | 我要投稿

    调用的接口是https://comment.bilibili.com/{cid}.xml

参考资料:

比较全面的入坑介绍

主要参考:https://blog.csdn.net/weixin_52308100/article/details/118685287

其他参考:

来自知乎:https://zhuanlan.zhihu.com/p/392931611
来自CSDN:https://blog.csdn.net/qq_39870538/article/details/124352010

来自Github:
https://github.com/SocialSisterYi/bilibili-API-collect/blob/master/docs/danmaku/danmaku_proto.md
https://github.com/SocialSisterYi/bilibili-API-collect/blob/bb437d2012e6291b38c78d42755db9d836d4975f/grpc_api/bilibili/community/service/dm/v1/dm.proto

话不多说,上结果

第一季

第二季
第三季

效果确实可以。在制作过程中对硬件的要求不高,普通的笔记本都可以做。

我主要参考的是第一篇csdn的代码,但是对DataCollation模块进行了重写,jieba库调用方法改为lcut_for_search,重写后结果如下:

path为之前爬取的弹幕数据所在地址,是一个列表,里面含有几千个弹幕字符串

然后写了一个去除单个汉字的函数:

如果不去除单个汉字,那么结果会变成这样

第一季

可以看到‘是’,‘了’,‘的’属于高频汉字,而且jieba在分词的时候也会把它们单独分出来。


顺便再说一句,没有大会员的前提下第三季的弹幕确实能爬到,但是会比较慢,而且有一定概率会报错‘不能建立新的链接’.

对于接口

https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=2&oid=745913430&date=2016-02-24

确实难做,因为还需要对弹幕文件进行protobuf解析,挺麻烦的。

对于接口(我现在用的这个)

https://comment.bilibili.com/{cid}.xml

对于弹幕是爬不满的,只能爬到一部分。三个季度下来只能通过这个接口爬取到约1.125%的弹幕,大概24万条。

本人超喜欢炮姐的~

某科学的超电磁炮·番剧·弹幕词云展示的评论 (共 条)

分享到微博请遵守国家法律