欢迎光临散文网 会员登陆 & 注册

Python系列教程 动漫之家爬虫

2019-10-05 16:24 作者:执念残生轮回  | 我要投稿

我并不喜欢特意去开一篇专栏写序,而且写本教程的。诚然,本系列本该在2019的暑期发布。但因为我个人因素,推迟到现在。总之事情还是按照原有计划进行,此为其一。

其二,在我高二时,Python借由人工智能爆发而大势所趋,我和基友每天中午吃完饭就在操场讨论这些,到现在我都觉得,我们所经历的教育是失败的应试教育,直到多年后的现在,用精辟的词总结就是体制问题。看看自己的课本,看看上课的教学方式,这些宏大的问题只在茶余饭后谈谈,其他同学这话题是聊不起来的。

我改变不了体制,也无心去改,现在我只是想做自己想做的事,仅此而已。我想,我们都是科班出身的人,到头来什么都不会。每当室友玩游戏时,我经常会思考他们的未来,包括我自己的未来,挺有意义的。

中国的IT业界和美国形成了G2体系,这一点在GitHub上能体现出来,在教科书方面,除去英语类书籍,剩下的基本上是汉语,再者我国人口基数也是一大关键,我所关注的产业升级与教育业改革——期待有一天能亲眼看到。

本系列教程旨在面向有一定钻研能力的人,所以不会把每行代码都解释一遍,也不会去编译出一个现成的文件出来。

需求:

自动下载动漫之家漫画,要求可以手动设置下载范围,实现断点续传。下载时用漫画单话页码命名文件。

分析:

随着B站收购网易漫画进军漫画业,动漫之家原本的汉化被迫撤掉,通过分析发现动漫之家没有做反爬虫措施,似乎也没有防盗链,但编写程序中预留了Headers和Referer。

顺便介绍一下异次元漫画这个APP,就是一个超级大爬虫,具体效果详见(https://www.iplaysoft.com/yi-ci-yuan-man-hua.html)

在漫画主页里首先要找到章节链接,右键点击检查(检查元素),得到div类名:cartoon_online_border 以及 cartoon_online_border_other(对应其他汉化版)

通过div类名,将里面每个章节的链接剥离出来,同时进行解析。

进入章节页面后,发现在加载图片时候,因为是异步加载,所以要解析js,使用js2py库。

配置环境 Python3.6+

汉化组的请求

在使用过程中,在未来也许本代码会失效。你大可自行修改。

代码地址:https://gist.github.com/Z-fly/029f83a863a70511c1ee41bd2dbac5d5


Python系列教程 动漫之家爬虫的评论 (共 条)

分享到微博请遵守国家法律