欢迎光临散文网 会员登陆 & 注册

Python爬虫JS逆向副业大王班:苑老师直播课1期

2023-07-19 11:12 作者:每天一个拼课小技巧__  | 我要投稿
  • 爬虫简介

  • 简单爬虫架构
    URL管理器
    网页下载器(urllib2)
    网页解析器(BeautifulSoup)

  • 完整实例:爬取百度百科雷军词条相关的1000个页面数据

tips: 轻量级爬虫:抓取无需登录的静态页面
复杂爬虫:抓取需要登录或者要Ajax异步加载等复杂场景的页面

二、爬虫的简介及爬虫技术价值

2.1、什么是爬虫
一段自动抓取互联网信息的程序,可以从一个URL出发,访问它所关联的URL,提取我们所需要的数据。也就是说爬虫是自动访问互联网并提取数据的程序。


爬虫调度端
用来启动、执行、停止爬虫,或者监视爬虫中的运行情况 在爬虫程序中有三个模块URL管理器:对将要爬取的URL和已经爬取过的URL这两个数据的管理
网页下载器
将URL管理器里提供的一个URL对应的网页下载下来,存储为一个字符串,这个字符串会传送给网页解析器进行解析
网页解析器
一方面会解析出有价值的数据,另一方面,由于每一个页面都有很多指向其它页面的网页,这些URL被解析出来之后,可以补充进URL管理 器
这三部门就组成了一个简单的爬虫架构,这个架构就能将互联网中所有的网页抓取下来


Python爬虫JS逆向副业大王班:苑老师直播课1期的评论 (共 条)

分享到微博请遵守国家法律