千锋教育python数据分析教程200集,Python数据分析师入门必备视频

网络数据采集
网络数据采集就是爬虫程序,也称为蜘蛛程序 spider
爬虫
通过编写程序,模拟浏览器上网,然后去批量获取数据,获取的是网站提供的数据
爬虫的合法性
爬虫本身在法律上是不被禁止,但是具有违法的风险
不能影响网站的正常运营,不能干扰服务器、不能窃取个人信息
君子协议
在协议中,明确了哪些内容可爬取
网站/robots.txt
反爬机制
网站设定一些反爬的措施或者技术手段防止爬虫程序进行数据爬虫
反反爬策略
在爬虫程序中通过指定相关策略,破解网站中的反爬机制,从而获取到数据
客户端与服务器端
客户端:供用户使用
服务器端:为用户提供服务,客户端显示的数据来源于服务器端,客户端向服务器发送请求,服务器接受到请求之后,查找数据,如果有相关数据,返回给客户端
请求和响应
请求:客户端通过ip地址定位服务器,向服务器发送信息,这个过程称为 请求
响应:服务器接受到了客户端的请求,作为回应的过程称为响应