数据分析方法(1)——异常分析
异常分析是数据分析过程中,最常见也最基本的工作内容之一,是指对不正常的数据进行分析并试图寻找可能发生的原因。
一、分析流程图

二、数据异常判断
1、判断数据是否异常?
自己取一遍数看看是否与给到的数据结果相似,判断是否有取数的错误或统计口径的区别,明确分析对象。
2、判断数据异常程度?
与历史数据对比,拉长周期,分析其变化情况是否在历史上是一个周期发生的异常,如果不是这次异动的程度如何,是否非常严重?
3、判断数据异动的频率?
一般给到的指标都是一个综合性大指标,所以可以看一下在一定的周期内(7天/一个月等),是否是某一天内的突变导致还是一个周期内的累计导致,主要考察异常发生的频率情况。
三、拆解指标
一般给到的指标都是综合性大指标,根据其计算公式进行拆解,再对每一个值进行考察。(如果不能拆成计算公式,直接跳过进行维度拆解)
举例:
商业类:收益: profit=revenu-cost
投资回报率:ROI=年利润/ 投资总金额
泛互联网:成交总额:GMV=订单数量*金额=用户*转化率*售价
日活跃用户:DAU
N日留存:第N日的留存用户/第1天的用户数
人均贡献:ARPU=总收入(GMV)/总用户数
四、拆解维度
对拆解下来的指标进行维度上的分析,这里拆解的维度首要与业务方进行确认,看业务方是否能给出建议或有想法,毕竟分析结果也是要给到业务方进行执行的。
最泛用的拆解:外因(竞争、行业)+内因(人、货、场)
粗略举例:
电商:人:新老用户、性别、年龄等
货:品类(如男装、女装)、发货地点、价格促销等
场:门店、渠道(如京东、淘宝)等
外因:竞品活动或新品(竞争因素)、政策扶持(行业因素)等
平台:人:新老用户、性别、年龄等
货:视频类型、内容等
场:运营活动、渠道类型(安卓、苹果)等
外因:竞品活动或新品(竞争因素)、政策扶持(行业因素)等
五、影响因素
1、单一影响因素:that's the aha time,根据这个这个影响因素提出分析建议即可。
2、复合影响因素,但可以用公式描述(如销量涨售价跌的情况):判断谁取主导作用,根据复合函数(以二维函数为例)的泰勒展开,取一阶导数:
其中的和
即影响函数对x,y两个维度上的偏导即为影响程度值,进行判断即可。
3、复合影响因素,缺乏数据或较难直接通过公式表述:(1)搭建复杂模型(时序分析,多元线性回归等),(2)协方差和相关性系数:比较值在这两个维度上的相关性程度,(3)改变单因素:进行AB测试或因果推断等方法确定是否为主因,(4)给出能够同时影响二者的建议
六、一个简单的应用
咨询上常用的收支分析:profit=revenu-cost
revenu=volume*price
cost=fixed cost+variable cost