马哥Python数据分析3期
数据分析简介
一、数据获取
1.数据获取手段
数据获取的手段主要有四种:数据仓库,监测与抓取,填写、埋点、日志,计算
1) 数据仓库
(1) 将所有业务的数据经汇总处理,构成数据仓库(DW)
全部事实的记录
部分维度与数据的整理(数据集市-DM)
(2)数据库VS仓库
数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)
数据库针对应用(OLTP:On-Line Transaction Processing),数据仓库正对分析(OLAP:Online analytical processing)
数据库组织规范,仓库可能冗余,相对变化大,数据量大
2) 监测与抓取
(1) 监测
使用监测设备或或算法直接获取数据,如传感器网络等
(2) 抓取
直接解析网页、接口、文件的信息
Python常用工具
抓取数据: urllib、urllib2、 requests、scrapy
解析路径:PhantomJS(运行JS代码后才能解析)、BeautigulSoup、Xpath(lxml)