欢迎光临散文网 会员登陆 & 注册

【PJSK/统计?普查!向】如何搜出PJSK相关的200+对CP,并更准确地统计CP与角色热度

2022-09-23 12:41 作者:涼风_青叶  | 我要投稿

摘要

        通过Python爬虫方法,取得了Pixiv上几乎所有PJSK的CP的Tag,并统计了截至2022年9月23日,各个Tag的作品数量,以及将这些Tag考虑在内后各个角色的作品数量。本文提供了统计开展的方法以及最终的统计结果,以及在统计角色作品数时,解决“CP向作品没有单人Tag”这一现象带来的误差的途径。

统计方法

1.如何确定要爬取的CP Tag名称

        CP的Tag名是复杂而无法穷举的。同一对CP的名称可以有不同的表达方式,比如“张三 × 李四”,可以表示为“三四”“四三”“さんよん”“34”等等。不同的两对CP,虽然这种情况比较少见(在PJSK当中没有遇到),但也可能用同一个Tag名表示。

        为了爬取CP Tag名称,采用如下方法:直接在Pixiv中搜索“プロセカ OR プロジェクトセカイ”,就会出现Pixiv上所有带有Tag“プロセカ”或者Tag“プロジェクトセカイ”的作品。通过Python爬虫方法,可以遍历这些作品的信息,包括这些作品的Tag。我们将各个Tag在这些作品中出现的频次统计出来(仅保留频次≥5的结果),得到如下表格(仅展示部分,图中数字仅供筛选Tag参考,不等于实际作品数的多):

        得到的Tag个数大约在2000个左右,是可以实现人工筛查的范围。接下来只需要手动将其中代表CP的Tag筛选出来即可。

2.如何确定Tag的作品数与角色的作品数

2.1 确定Tag的作品数

        统计以爬虫所获得的结果为标准,该结果应当与任何一个账号登录,打开R-18与R-18G开关,并且无屏蔽Tag与作者时,在“插画”或“小说”页面看到的数字一致。

        Tag的统计收录标准为:①插画数,或者小说数,大于等于5;②存在于统计开始时间之前,即2022年9月22日北京时间22时之前。

        Tag作品数的统计完成于9月23日北京时间0时。

2.2 确定角色的作品数

        出于CP爱好者“圈地自萌”的思想,部分CP作品是不打上单人Tag的。这么做的初衷是避免这些CP向作品被只喜欢单人 / 不喜欢该CP的爱好者看到,但也给角色热度统计带来了不小的误差。本次统计解决了这个误差问题。

        统计收录标准为:带有角色名字Tag,或者带有含该角色的CP的Tag(注意是“或者”关系,而不是将角色数据与CP数据简单相加)CP的总作品数不小于50,因为搜索的CP个数过多会导致搜索结果出现Bug。

        角色作品数的统计完成于9月23日北京时间8时。

3.统计结果

3.1 计入CP向作品后,角色总作品数、插画、小说统计结果




3.2 CP的总作品数、插画、小说统计结果

        为节省篇幅,插画、小说的统计结果只保留相应作品数≥50的CP。注意:同一对CP对应的Tag可能不只一个。



【PJSK/统计?普查!向】如何搜出PJSK相关的200+对CP,并更准确地统计CP与角色热度的评论 (共 条)

分享到微博请遵守国家法律