日服推特人气排名细则[2022-2023]
1.干员范围
2023.1.1前实装的日服干员 截止至黑键,不包含百嘉鸿雪多萝西等
2022-2023日服活动期间部分剧情角色会得到buff,数据较高,如克天使,但年末活动角色数据就较低,如黑键
由于搜索结果中只从文本难以辨别异格干员与原干员,故异格与原干员视为一体,只针对角色进行排名
2.计分规则
按照各干员推特数量排名
3.搜索规则
使用python Scweet库对各干员直接搜索(明日方舟 AND 干员名),限定语言为日语
(所有参数:words=['アークナイツ',opename], since="2022-01-01", until="2023-01-01", from_account = None,interval=1,headless=False, display_type="Latest",lang="ja" save_images=False, resume=False, filter_replies=False, proximity=False)
不加上明日方舟理论上能搜到更多内容,但因为部分干员存在歧义(如能天使...),会搜到其他不相关内容,所以还是加上明日方舟
Scweet库搜索时有时会丢失一小部分推特,无法全部爬取
综合以上两点,本次最终数据只是对大日推环境下的“等量放缩”,所以最终数据量相对而言不多
搜索时会额外搜索部分干员的常用外号。
4.数据补正
推特关键字搜索时得到的结果已经较为精确。如搜索梅时应该会进行分词,不会把梅尔也带进来(日语的梅和梅尔第一个音也是相同),但是仍然存在特殊情况
a.W——w在日语中有笑的意思,霓虹网民喜欢句尾加w或者连续w尬笑。对于搜索出的所有W,先选择去除掉句尾w和连续w情况,剩余a条,后存在两种可能:
①句中的单个w仍然表示笑(a=a-x)
②删去的句尾w反而是真正的w(a=a+y)
经人力估计,两种情况数量近似相等(x=y),故取a为最终结果
b.稀音在日语中音同场景scene。对搜索结果人工按时间均匀取样240条后,得到实际稀音/全部结果为101/240。故最终结果将乘上这个系数(艾丝黛尔同理,日语中其与酯同音)
c.阿。部分片假名阿表示感叹。人工查询后,搜索的结果中每月约有10+条阿为感叹,故最终结果选择-150进行平衡(山等情况同理)
附:2022-2023日服活动时间表
多索雷斯(水陈水月)
如我所见
9章(琴柳)
红松林
长夜临光(耀骑士 焰尾)
风雪过境(灵知)
将进酒(老鲤 令)
阴云火花(粉毛)
吾导先路(肥鸭)
10章(号角)
狂人号(艾丽妮 鲨)
尘影余音(黑键)

