Python系列教程动漫之家爬虫

2019-10-05 16:24 作者:执念残生轮回 0人读过 | 我要投稿

我并不喜欢特意去开一篇专栏写序，而且写本教程的。诚然，本系列本该在2019的暑期发布。但因为我个人因素，推迟到现在。总之事情还是按照原有计划进行，此为其一。

其二，在我高二时，Python借由人工智能爆发而大势所趋，我和基友每天中午吃完饭就在操场讨论这些，到现在我都觉得，我们所经历的教育是失败的应试教育，直到多年后的现在，用精辟的词总结就是体制问题。看看自己的课本，看看上课的教学方式，这些宏大的问题只在茶余饭后谈谈，其他同学这话题是聊不起来的。

我改变不了体制，也无心去改，现在我只是想做自己想做的事，仅此而已。我想，我们都是科班出身的人，到头来什么都不会。每当室友玩游戏时，我经常会思考他们的未来，包括我自己的未来，挺有意义的。

中国的IT业界和美国形成了G2体系，这一点在GitHub上能体现出来，在教科书方面，除去英语类书籍，剩下的基本上是汉语，再者我国人口基数也是一大关键，我所关注的产业升级与教育业改革——期待有一天能亲眼看到。

本系列教程旨在面向有一定钻研能力的人，所以不会把每行代码都解释一遍，也不会去编译出一个现成的文件出来。

需求：

自动下载动漫之家漫画，要求可以手动设置下载范围，实现断点续传。下载时用漫画单话页码命名文件。

分析：

随着B站收购网易漫画进军漫画业，动漫之家原本的汉化被迫撤掉，通过分析发现动漫之家没有做反爬虫措施，似乎也没有防盗链，但编写程序中预留了Headers和Referer。

顺便介绍一下异次元漫画这个APP，就是一个超级大爬虫，具体效果详见（https://www.iplaysoft.com/yi-ci-yuan-man-hua.html）

在漫画主页里首先要找到章节链接，右键点击检查(检查元素)，得到div类名：cartoon_online_border 以及 cartoon_online_border_other（对应其他汉化版）

通过div类名，将里面每个章节的链接剥离出来，同时进行解析。

进入章节页面后，发现在加载图片时候，因为是异步加载，所以要解析js，使用js2py库。

配置环境 Python3.6+

在使用过程中，在未来也许本代码会失效。你大可自行修改。

代码地址：https://gist.github.com/Z-fly/029f83a863a70511c1ee41bd2dbac5d5

标签：

Python系列教程动漫之家爬虫的评论 (共条)