【杂谈】Python爬取呆站小马图片的可行性

2022-09-26 16:40 作者:-伊马- 0人读过 | 我要投稿

Derpibooru，或者说Trixiebooru，是已知的小马图片最为丰富的网站，上面有很多有用的矢量图素材，但是一个一个下载又显得有些麻烦，这时候我们不妨让程序来做这种简单重复的工作。（文章较长，不想看可以跳到文末直接拿图）

首先我们可以用Pip install安装“BeautifulSoup”和“Requests”库，这两个库是实现爬取图片的关键

然后我们先查看网站的Crawl协议，看是不是可以爬取

看到可以爬取后，我们打开开发者界面，找到我们要爬取的图片的链接

可以看到图片的链接好似有一些规律
最后面的编号即为呆站给每个图片的ID

在源代码中找到这个网址对应的tag和属性并提取该链接的内容

接下来我们要做的就是解析这个链接的内容，然后保存到我们的本地

效果不错
然后如果要进行大批量的下载的话，我们同样可以用相似的方法解析呆站的搜索页面，只不过加若干个循环即可，具体我就不展示了，留给读者尝试。
然后这种爬取方法有一个问题，这只能查看默认过滤器的内容，不过我们可以创建一个账号，设置一下这个账号的过滤器，然后提取出它的cookie并加上去即可。（参考链接，参考课程：南大张莉的用Python玩转数据，北理嵩天、黄天羽的Python网络爬虫与信息提取）

画师在呆站的315张图，全部按点赞数由高到低排序，应该是全部了(如果有图太模糊，是动图，改一下后缀为gif即可)：链接：链接：https://pan.baidu.com/s/1Lw6YVopZZo5voVOF2-0l7g
提取码：1234

标签：

【杂谈】Python爬取呆站小马图片的可行性

【杂谈】Python爬取呆站小马图片的可行性的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

【杂谈】Python爬取呆站小马图片的可行性

本文作者的其他文章

【杂谈】Python爬取呆站小马图片的可行性的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

【杂谈】Python爬取呆站小马图片的可行性的评论 (共条)