欢迎光临散文网 会员登陆 & 注册

爬取PIXIV搜索结果图片(js脚本)

2023-02-05 00:26 作者:铭心与爱  | 我要投稿

前几天使用了几个p站脚本,爬取时都需要登录账号,而且爬取速度一言难尽,爬的快的爬取100个作品时就会被制裁一段时间,虽然扩展性可玩性挺高,但是前面那俩缺点已经让我有点难以接受了. 偶然间发现其实图片都是在i.pximg.net域名下,只需要把作品的id和上传时间拼接一下

https://i.pximg.net/img-master/img/20xx/09/01/00/32/22/100775xx7_p0_master1200.jpg

就可以直接使用,放到IDM中可以直接下载,速度可以达到满速.

方法是搜索关键词后,进入搜索结果页面,使用开发者工具查看缩略图的图片链接可以看到

https://i.pximg.net/c/540x540_70/img-master/img/20xx/01/xx/13/53/33/104874xx_p0_master1200.jpg

已经将id和上传时间包含进去,所以只需要用js获取到图片的链接即可.当然现在还不能直接使用,当获取完链接之后,再批量处理一下链接格式即可.另外有些作品是jpg格式直接下载,小部分是需要zip格式下载,我没有去测试,但似乎是链接文件格式后缀前仅为id的就是需要zip格式下载的,zip格式的下载链接格式

https://i.pximg.net/img-zip-ugoira/img/20xx/02/xx/20/20/35/9625xx89_ugoira1920x1080.zip

这种方法的好处就是完全不用担心登录账号被p站制裁,爬取速度看你加载速度,如果网速好的话一秒就能爬完一页,差不多一秒五六十张.可以配合收藏数过滤优质作品.另外 https://www.pixiv.net/ajax/illust/+id 会以json字符串返回作品详细信息,不需要设置cooike和header(看到很多人写的get其他类似url都要设置cooike,所以感觉这个还挺好),里面包含likecount和tags,可以筛选作品.

最后贴上瞎写的代码,因为没学过web,都是现搜现写,使用不是很人性化.学过web的可以自己写个


爬取PIXIV搜索结果图片(js脚本)的评论 (共 条)

分享到微博请遵守国家法律