Python爬虫JS逆向副业大王班:苑老师直播课1期
2023-07-19 11:12 作者:每天一个拼课小技巧__ | 我要投稿
爬虫简介
简单爬虫架构
URL管理器
网页下载器(urllib2)
网页解析器(BeautifulSoup)完整实例:爬取百度百科雷军词条相关的1000个页面数据
tips: 轻量级爬虫:抓取无需登录的静态页面
复杂爬虫:抓取需要登录或者要Ajax异步加载等复杂场景的页面
二、爬虫的简介及爬虫技术价值
2.1、什么是爬虫
一段自动抓取互联网信息的程序,可以从一个URL出发,访问它所关联的URL,提取我们所需要的数据。也就是说爬虫是自动访问互联网并提取数据的程序。

爬虫调度端
用来启动、执行、停止爬虫,或者监视爬虫中的运行情况 在爬虫程序中有三个模块URL管理器:对将要爬取的URL和已经爬取过的URL这两个数据的管理
网页下载器
将URL管理器里提供的一个URL对应的网页下载下来,存储为一个字符串,这个字符串会传送给网页解析器进行解析
网页解析器
一方面会解析出有价值的数据,另一方面,由于每一个页面都有很多指向其它页面的网页,这些URL被解析出来之后,可以补充进URL管理 器
这三部门就组成了一个简单的爬虫架构,这个架构就能将互联网中所有的网页抓取下来