欢迎光临散文网会员登陆 & 注册

某科学的超电磁炮·番剧·弹幕词云展示

2023-03-11 00:15 作者:Because6666666 0人读过 | 我要投稿

调用的接口是https://comment.bilibili.com/{cid}.xml

参考资料：

比较全面的入坑介绍

主要参考：https://blog.csdn.net/weixin_52308100/article/details/118685287

其他参考：

来自知乎：https://zhuanlan.zhihu.com/p/392931611
来自CSDN：https://blog.csdn.net/qq_39870538/article/details/124352010

来自Github：
https://github.com/SocialSisterYi/bilibili-API-collect/blob/master/docs/danmaku/danmaku_proto.md
https://github.com/SocialSisterYi/bilibili-API-collect/blob/bb437d2012e6291b38c78d42755db9d836d4975f/grpc_api/bilibili/community/service/dm/v1/dm.proto

话不多说，上结果

第一季

第二季

第三季

效果确实可以。在制作过程中对硬件的要求不高，普通的笔记本都可以做。

我主要参考的是第一篇csdn的代码，但是对DataCollation模块进行了重写，jieba库调用方法改为lcut_for_search，重写后结果如下：

path为之前爬取的弹幕数据所在地址，是一个列表，里面含有几千个弹幕字符串

然后写了一个去除单个汉字的函数：

如果不去除单个汉字，那么结果会变成这样

第一季

可以看到‘是’，‘了’，‘的’属于高频汉字，而且jieba在分词的时候也会把它们单独分出来。

顺便再说一句，没有大会员的前提下第三季的弹幕确实能爬到，但是会比较慢，而且有一定概率会报错‘不能建立新的链接’.

对于接口

https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=2&oid=745913430&date=2016-02-24

确实难做，因为还需要对弹幕文件进行protobuf解析，挺麻烦的。

对于接口（我现在用的这个）

https://comment.bilibili.com/{cid}.xml

对于弹幕是爬不满的，只能爬到一部分。三个季度下来只能通过这个接口爬取到约1.125%的弹幕，大概24万条。

本人超喜欢炮姐的~

标签：超炮某系列 python 词云炮姐某科学的超电磁炮

某科学的超电磁炮·番剧·弹幕词云展示的评论 (共条)