欢迎光临散文网 会员登陆 & 注册

路飞爬虫开发APP逆向超级大神班

2022-09-18 20:47 作者:三国尽归许佳琪  | 我要投稿

Python简单爬虫架构

1)首先,我们需要一个爬虫调度端。爬虫调度端的作用:启动爬虫,停止爬虫,监视爬虫运行情况。

2)在爬虫程序中有三个模块:URL管理器、网页下载器、网页解析器。

3)URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出待爬取的URL,将其传送给“网页下载器”。

4)网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”。

5)网页解析器:解析网页可解析出

    ①有价值的数据

    ②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”

此时,这三个模块就形成了一个循环,只要有感兴趣的URL,这三个模块就会一直循环下去。


路飞爬虫开发APP逆向超级大神班的评论 (共 条)

分享到微博请遵守国家法律