千锋教育python数据分析教程200集,Python数据分析师入门必备视频

爬虫分为四大类
聚焦爬虫 通用爬虫 增量爬虫 暗网爬虫
聚焦爬虫是完成某一项特定数据的采集
百分之九十的爬虫都是聚焦爬虫,应用最多
通用爬虫是什么内容都采集,都存下来
搜索引擎 百度 谷歌
增量爬虫既可以是聚焦爬虫,也可以是通用爬虫。当内容发生变化的时候,它可以增量的获取内容。
暗网爬虫是深网爬虫,很少见
爬虫的核心步骤
1.明确目标
收集汽车相关信息
。汽车成交量
。汽车的评论信息
。汽车提车分享信息
2.搜寻哪些网站或者App中有我们要的资源
汽车之家
动车帝
3.分析数据所在位置,加载方式
直接加载的
还是额外的网络请求
4.数据获取
使用代码驱动既有的App或浏览器
4.数据获取
使用代码驱动既有的App或浏览器
自己分析请求,构造请求
5.数据提取
从返回的内容中将自己的那一部分提取出来
6.数据存储
7.提升性能
写爬虫需要注意的事项
给服务器留活路
爬虫开启后,使用其他设备去访问爬虫网站
脱离敏感数据
不要公开收费
不要爬国家的这种公共资源的网站