数据分析第4篇|数据分析流程详解:数据分析五步曲

内容导航
1 引子
故事1:
故事2:
2 数据分析五步曲
第一:明确分析目的
第二步:数据采集
第三步:数据处理
第四步:数据分析
第五步:数据决策
1 引子
故事1:
2013年,Netflix 出品了一部电视剧《纸牌屋》,由于该剧的题材和演员阵容备受瞩目,因此备受期待。
然而,投入巨资制作的《纸牌屋》是否会成功,这对 Netflix 来说是一个重大的未知数。
于是,Netflix 开始利用他们的用户数据来预测该剧的成功率。
他们首先分析了许多成功的电视剧,研究它们的主题、演员、导演、剧本等各个方面,然后根据这些信息来制定他们的投资策略。
最终,Netflix 决定了制作《纸牌屋》。
故事2:

有部电影叫做《逆流而上》(The Big Short),又叫太空头。
这部电影的主题是2007-2008年的金融危机,主要讲述了一群华尔街的交易员和投资者如何通过对美国房地产市场的数据分析和预测,成功地赚取了大量的财富。
这些人在金融市场上被称为“押注房地产崩盘的人”。
这些人通过分析房贷债务人的信用记录和偿债能力,发现了很多问题,比如很多房主都没有足够的还款能力,贷款机构却还在不断地向他们发放高利贷款,这意味着这些人的贷款很可能会违约,导致金融市场崩盘。
他们的分析结果最终得到了证实,导致了金融市场的巨大动荡和崩盘,而这些人也因此赚取了大量的财富。
通过这两个简短的故事,你应该已经基本了解了数据分析在商业方面的重要性。
今天就来和大家详细讲一讲数据分析的五个核心流程。
2 数据分析五步曲
在上面的案例中,相信你已经了解到数据分析的五个核心流程了。
下面就详细讲一下。
第一:明确分析目的
明确分析目的是数据分析的第一步,也是最重要的一步。
因为它直接影响着整个数据分析的过程,进而影响数据分析结果。
在这一步,你需要确定需求和问题,明确数据分析的目标,因为一切分析的都是以解决问题为核心。
很多新手最容易犯的错误就是忽略或者轻视了这一步,导致分析目的不明确,把分析重心放在用什么样的分析图表,什么样的分析方法,而不是放到探究数据背后的真相。
明确分析目的前提是定义问题。
我们在日常的工作中经常会被各种问题困扰,大多时候你的问题都不是我在上面案例中提到的那么简单,它不是非黑即白,也不是非对即错,能够找到问题的本质也是一项难能可贵的能力。
这里推荐大家有空的时候读一本书《你的灯亮着吗?》。
这本书的作者是杰拉尔德·温伯格,他是软件领域著名专家之一,美国计算机名人堂代表人物, Weinberg & Weinberg顾问公司的负责人。
他目前已经出版了超过30本广受欢迎的著作,在全球有非常庞大的读者群体。
通过这本书你可以get到两个点:
1.在遇到问题阶段不要是一上来就立即解决问题,而是应该先去定义问题
2.真正能够高效解决问题的关键点,是从两个方面去思考:问题该由谁解决以及和问题的来源是什么
这本书在开头讲了一个故事,从这个故事里你就能了解到,定义真正的问题并没有那么简单。
这里放个引子,你可以自行阅读。

第二步:数据采集
数据采集也是数据分析流程中非常关键的一步,也是数据分析的基础。
数据采集指的是从不同来源获取原始数据,并将其转化为可分析的数据集合。
数据的准确性、完整性和时效性对数据分析的质量和结果影响非常大。
有句话叫:Garbage in garbage out,表达的就是这个意思。
数据采集是一个偏技术的活,而且不同的研究需要不同的数据,不在这里作过多说明。
对于个人来说,我们一般会使用第三方数据服务,例如政府统计局、市场研究机构、社交媒体等
第三步:数据处理
世界上第一台计算机的发明者查尔斯·巴贝奇,在他1864年的随笔文集中记录了这样一件事,他曾经因为有人认为在输入错误数据的情况下计算机依然能够给出正确答案而错愕不止。
很显然,如果是错误的数据,无论得出的答案是正确的还是错误的都是不能作为决策依据的。
数据处理是指将收集到的原始数据进行清洗、转换、整合、分析和存储等一系列操作,以便于后续的数据分析和决策。
数据处理也是数据分析流程中至关重要的一环,因为只有经过正确处理的数据才能用于后续的分析和决策,否则分析的结果可能会被误导或失真。
同时,数据处理也是数据分析流程中最为耗时和繁琐的一环,需要耐心和细心地进行操作。
如果你还不知道什么是数据处理,再看我推出的这些小工具,这些小工具无一例外地都是用来帮助你解决某一个数据处理场景下的问题的:
快如闪电:一键合并excel文件中所有工作表
你还在手动拆分Excel工作表吗?教你一招,一键搞定!
地址标准化、地址解析有这个工具就够了|EasyGeo全新升级,支持win10兼容win7!
第四步:数据分析
在这一步,数据分析就是特指使用上面经过处理后的数据进行分析的过程。
一般我们借助各种数据分析方法结合数据分析工具(如Excel、Python、PoweBI,SQL)对数据进行探索笥分析,最终形成数据分析报告。
常见的数据分析类型有四种:
1 描述性数据分析
2 探索性数据分析
3 指导性数据分析
4 预测性数据分析
我们已经在《数据分析第2篇|深入理解:探究四种常见的数据分析类型》中详细说明。
一般而言,如果你是为了毕业论文,最常使用的是:「描述性数据分析+指导性数据分析」,或者「描述性数据分析+探索性数据分析」。
当然了,这些本质都是一些分析框架,如果你不知道怎么选择,那就回归到数据分析的本质:解决问题,然后结合自己的需要选择一个最适合你的数据分析方法。
对于初学者而言,如果你不知道怎么开始,那就使用模板。
例如你在写毕业论文,你的学校一般会提供类似的模板论文,照着填充内容就可以了。
如果你是工作需要,你所在的部门也一般会有类似的运营分析模板,照着填充内容就可以了。
第五步:数据决策
一般而言第五步完成后,辅助数据决策的结论也就出来了。
这个结论通常比较简短,甚至只有几句话。
你如果需要别人信服你的结论,就需要在第四步的时候完成详细的数据分析报告,提供数据支撑。
这里我推荐大家读一读浑水机构做空瑞幸咖啡的分析报告。
https://www.yuque.com/soaringsoul/data_analysis/rrz692icbpiywspe?singleDoc# 《浑水做空瑞幸咖啡报告 (中文版)》
2020年4月,全球最大的中概股做空机构之一的浑水公司发布了一份名为《瑞幸咖啡:一场骗局》的报告,指控瑞幸咖啡存在虚构销售、财务造假等严重问题。
这份报告震惊了整个资本市场,瑞幸咖啡股价在当日暴跌逾80%,市值蒸发超过30亿美元。
浑水公司在报告中主要提出了以下几点指控(也就是我们数据分析五步曲中的数据分析结论):
瑞幸咖啡虚构销售额,涉嫌财务造假;
瑞幸咖啡的实际门店数量远低于宣传的数量;
瑞幸咖啡的财务报表存在问题,主要体现在虚构销售、虚构收入和恶意烧钱等方面;
瑞幸咖啡高管存在内幕交易行为。

这份报告可以作为一份非常好的数据分析入门学习资料和案例,涵盖了数据分析的整个流程,建议阅读学习。