千锋教育python数据分析教程200集,Python数据分析师入门必备视频
2023-07-18 20:08 作者:bili_79695508657 | 我要投稿

爬虫的分类
四大类:
·聚焦爬虫:完成某一项特定数据的采集(百分之90的爬虫)
·通用爬虫:就是什么内容都采集,都存下来(例:搜索引擎(百度;谷歌))
·增量爬虫:既可以是聚焦爬虫,也可以是通用爬虫(当内容发生变化的时候,可以增量的获取内容)
·暗网爬虫:深网爬虫--少见
·暗网/深网爬虫--见不得光的地方
·暗网爬虫既可以是聚焦爬虫也可以是增量爬虫
爬虫合法吗?
机器人协议
·robots.txt
·协议中规定了哪些内容可以哪些内容不可以
·通常协议中会标明哪些不让爬
君子协议
·未标注是否可以爬取
·历史上有很多爬虫工程师吃了官家饭
写爬虫的注意事项
·给服务器活路
·脱离敏感数据
·不要公开收费
·不要爬国家公共资源的网站