路飞爬虫开发APP逆向超级大神班
Python简单爬虫架构
1)首先,我们需要一个爬虫调度端。爬虫调度端的作用:启动爬虫,停止爬虫,监视爬虫运行情况。
2)在爬虫程序中有三个模块:URL管理器、网页下载器、网页解析器。

3)URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出待爬取的URL,将其传送给“网页下载器”。
4)网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”。
5)网页解析器:解析网页可解析出
①有价值的数据
②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”
此时,这三个模块就形成了一个循环,只要有感兴趣的URL,这三个模块就会一直循环下去。