欢迎光临散文网 会员登陆 & 注册

马哥Python数据分析3期

2023-06-23 21:52 作者:不知其几千里耶  | 我要投稿

数据分析简介

一、数据获取

1.数据获取手段

数据获取的手段主要有四种:数据仓库,监测与抓取,填写、埋点、日志,计算

1) 数据仓库

(1) 将所有业务的数据经汇总处理,构成数据仓库(DW)

  • 全部事实的记录

  • 部分维度与数据的整理(数据集市-DM)

(2)数据库VS仓库

  • 数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)

  • 数据库针对应用(OLTP:On-Line Transaction Processing),数据仓库正对分析(OLAP:Online analytical processing)

  • 数据库组织规范,仓库可能冗余,相对变化大,数据量大

2) 监测与抓取

(1) 监测

使用监测设备或或算法直接获取数据,如传感器网络等

(2) 抓取

  • 直接解析网页、接口、文件的信息

  • Python常用工具

  • 抓取数据: urllib、urllib2、 requests、scrapy

  • 解析路径:PhantomJS(运行JS代码后才能解析)、BeautigulSoup、Xpath(lxml)


马哥Python数据分析3期的评论 (共 条)

分享到微博请遵守国家法律