【杂谈】Python爬取呆站小马图片的可行性

Derpibooru,或者说Trixiebooru,是已知的小马图片最为丰富的网站,上面有很多有用的矢量图素材,但是一个一个下载又显得有些麻烦,这时候我们不妨让程序来做这种简单重复的工作。(文章较长,不想看可以跳到文末直接拿图)

首先我们可以用Pip install安装“BeautifulSoup”和“Requests”库,这两个库是实现爬取图片的关键


然后我们先查看网站的Crawl协议,看是不是可以爬取

看到可以爬取后,我们打开开发者界面,找到我们要爬取的图片的链接


可以看到图片的链接好似有一些规律
最后面的编号即为呆站给每个图片的ID

在源代码中找到这个网址对应的tag和属性并提取该链接的内容


接下来我们要做的就是解析这个链接的内容,然后保存到我们的本地

效果不错
然后如果要进行大批量的下载的话,我们同样可以用相似的方法解析呆站的搜索页面,只不过加若干个循环即可,具体我就不展示了,留给读者尝试。
然后这种爬取方法有一个问题,这只能查看默认过滤器的内容,不过我们可以创建一个账号,设置一下这个账号的过滤器,然后提取出它的cookie并加上去即可。(参考链接,参考课程:南大张莉的用Python玩转数据,北理嵩天 、黄天羽的Python网络爬虫与信息提取)

画师在呆站的315张图,全部按点赞数由高到低排序,应该是全部了(如果有图太模糊,是动图,改一下后缀为gif即可):链接:链接:https://pan.baidu.com/s/1Lw6YVopZZo5voVOF2-0l7g
提取码:1234