【数据发布】A-SOUL直播成员统计(截止至510)【枝江数据统计】
1. 数据来源
1.1. 直播标题与时间
使用了一种朴素的方法:将@奶粉_Day0老师的录播站上一周年、二周年的录播文件夹页面保存到本地,用正则从html文件里提取每个视频文件的名字,以获取直播的日期和标题,最后结合直播预告动态进行人工校对。 提取之后对日期进行了一些处理,使之能够直接导入Notion中作为"Date"一栏被识别。
1.2. 直播预告动态
使用爬取B站动态列表(https://github.com/Starrah/BilibiliGetDynamics)对@A-SOUL_Official账号进行动态的爬取。为方便检索查看,使用了简单的html网页进行显示。
2. 数据处理原则
本次发布的数据主要使用了两类原则进行处理,详细如下:
2.1 通用原则
只有A-SOUL成员实时交互的时间才算直播(排除AI乃琳等)
直播中断后恢复、推流出现问题后调整直播时间,不重复计算(如已播较长时间算作完整直播)
2.2 最小化原则
最小化:只有A-SOUL成员出场(模型、声音)、在计划安排内和大部分观众进行公开实时互动才算。本质上是以“V”为主,主要关注实时性。
不计算非公开直播(面向少数人群的且不计划让大部分粉丝看到,如珈乐军训;部分未事先通知的测试推流,如萤火虫前彩排)
成员模型未出场不计入参与了直播(如电话连线,只有声音的临时串场),另外只有声音的测试直播可计入,只有画面(羊驼模型)的测试直播不计入
-出现在直播流内的录制视频不计入直播(BML VR,冰火歌会、集光之夜、dy奇妙夜等提前录制好的视频)
3. 数据类型
本次发布的数据为使用notion自带的export功能生成的csv文件。每一行代表一次直播,而三列分别是:
Title: 直播标题
Date: 直播时间,格式为YYYY/MM/DD
Member:参与直播的成员,为一包含某次直播出场成员名字的字符串,不同成员之间以逗号分开,如“嘉然,向晚”
4. 数据处理过程
1.1中直接提取的直播标题和日期->格式矫正->导入notion->结合1.2爬取的动态和录播文件手动添加成员一列的信息/删除重复、不合原则的行->导出csv
数据处理历史:
- 删除 和嘉然一起画画吧 前15分钟 2020/12/20: 重复
- 删除 珈乐 军训片段+番外的合集 2021/01/06: 非公开直播
- 删除 珈乐 最后一次军训 2021/01/27: 非公开直播
- 删除 抖音奇妙夜 赤伶 手机录屏弹幕版 2021/10/15:重复
- 删除 抖音奇妙日 手机录屏单模板 2021/19/16: 重复
- 删除 测试直播 2021/03/27 纯放歌,没人说话
- 删除 本音彩排 测试直播 2021/05/01 在直播开始之前进行的短时间彩排,不单独计入直播
- 删除 团播 夏日泳装发布! NTR 抖音无泳装二阶段版 重复
- 删除 BML VR A-SOUL部分 4K 2021/07/09 播片
- 删除 乐华12周年家族演唱会 AS部分 主视角 4K 播片
- 删除 贝拉 抖音大V连线时刻 弹幕版 手机录屏 重复
- 删除 七夕特别直播 弹幕版 手机录屏 重复
- 删除 抖音奇妙夜 赤伶 播片
- 删除 集光之夜 《传说的世界》 播片 2022/01/28
- 删除 测试直播 2021/03/10 只有阿草在扭😡
- 删除 测试直播 2021/08/23 只有阿草在扭🥵
- 删除 测试直播 2021/10/18 只有阿草在扭🤣
- 删除 测试直播 2021/11/08 只有阿草在扭🤤
- 删除 珈乐 嘉然 百大盛典 2022/01/21 播片
- 删除 羊驼 军训工具人 2022/04/11 只有阿草在扭😍
- 删除 羊驼 测试直播 2022/04/11 只有阿草在扭🎤
5. 数据发布
csv文件:https://github.com/VictorAZ12/ZJStatistics/blob/main/calendar/calendar_minimal_members_to510.csv
notion页面浏览原始数据:https://fluffy-textbook-181.notion.site/077eec31ced54ec2a7022012e3ac0b97?v=1cb16d4e284e46158d7c45b32c50ff96