数据分析方法(3)——方差分析

虽然题目叫方差分析,但其实只是一小部分,这一章就假设检验中的多样本分析问题主要讨论下。
一、方差齐性检验
主要针对的问题:在多个样本中,每个样本之间的方差是否一致?因此较常考察的假设就是H0:σ0=σ1=σ2=...
常用方法:
(1)F检验:当样本数量为2时的假设检验方式,也叫作方差比,在上一章中已着重讲过,这里就不在赘述。可以参考如下链接:
https://www.bilibili.com/read/cv22198893?spm_id_from=333.999.0.0
(2)Hartley检验:将F检验进行推广,分子选取max(s1,s2,...),分母选取min(s1,s2,....),得到结果再通过F检验进行考察确定拒绝域。
(3)Bartlett检验:假设多个样本之间均来自于正态总体(或者样本取样数量足够多),此时就可以认为其方差满足卡方分布,该检验统计量为:

式中的n为采样数量,r为有几个总体,Si是每个抽样的方差,S为所有抽样的方差。
得到检验统计量后由卡方分布确定拒绝域。
(4)Levene检验:该检验方式较Bartlett检验的规则更为宽松一些,对正态分布的需求不强。主要原理是比较组内方差与组间方差,在进行F检验。公式为:

式中,N为采样数量,k为有几个总体,Zi为样本组内均数,Z为总体均数。检验统计量W可以理解为(自由度*组间方差)/(自由度*组内方差),W~F(k-1,N-k)的F分布,通过这个分布来确定拒绝域。
(5)BF检验:Levene检验的进阶版,通过对均值Z的修正实现,主要添加了关于新Z的计算方法。
二、方差分析
虽然叫方差分析,但分析却不是方差而是均值,只是采用方差来进行分析。所以这类假设检验的H0:μ0=μ1=μ2=...这样的假设检验主要考察实验中的影响因素是否真的有起到影响能力,如考察分别采用广告形式A,广告形式B,广告形式C对付费量是否产生影响。
1、分类
根据每组样本之间的影响因素多少可以分为:单因素方差分析,无交互作用的双因素方差分析,有交互作用的双因素方差分析。
三因素分析视情况看是否有无交互作用的单因素,在该因素下进行不同数据集的双因素分析,如不存在就两两进行双因素分析。四因素及以上情况就太复杂了,一般不进行。
2、使用条件
(1)各组样本独立
(2)各组样本满足正态分布
(3)各组样本间满足方差齐性*
[注:当不满足方差齐性时,可以采用对数据取对数,开方等手段处理,直到满足齐性要求,或者采用Welch或Brown-Forsythe或非参数检验等方式进行]
3、单因素方差分析
主要步骤:
(1)组内方差、均方差
(2)组间方差、均方差
(3)总体方差、均方差
(4)计算检验统计量F=组间均方差/组内均方差、以及关系强度
举例:

(1)、计算组内方差,方差和,均方差
各组方差σ1=2.8 σ2=5.2 σ3=6.8
方差和 SSE=2.8+5.2+6.8=14.8
自由度 df=n-k(样本量-样本组数)=15-3=12
组内均方差 MSE=SSE/df=1.23
(2)、计算组间方差、方差和、均方差
总体均值σ=(17.2+19.4+19.8)/3=18.8
组间方差和SSA=Σni(xi-x)^2=5*[(17.2-18.8)^2+(19.4-18.8)^2+(19.8-18.8)^2]=19.6
自由度df=k-1=2
组间均方差MSA=SSA/df=9.8
(3)、综合方差,均方差和
总体方差SST=(每个值-总体均值)^2=34.4
SST=SSE+SSA
自由度df=n-1=14
均方差MST=SST/df=2.46
(4)、进行F检验
F=MSA/MSE=7.97~F(k-1,n-k)即F(2,12)
根据显著性水平确定拒绝域比较即可。
(5)、关系强度
R2=SSA/SST
即组间方差占总方差的影响,该值越大,说明影响越强。
4、无相互作用的两因素方差分析
无交互作用指两个因素之间没有相互影响的关系,不会产生协同增强或减弱效应。因此总体思路与单因素方差分析十分接近,只是增加行列两因素而已,总体步骤如下:
(1)、计算行方差、均方差
(2)、计算列方差、均方差
(3)、计算随机方差、随机均方差
(4)、计算检验统计量及关系强度
举例:

(1)
SSR=3*[(5.333-5.222)^2+(6.667-5.222)^2+(3.667-5.222)^2]=13.556
MSR=SSR/(C列数-1)=13.556/2=6.778
(2)
SSC=3*[(7.333-5.222)^2+(4.000-5.222)^2+(4.333-5.222)^2)]=20.222
MSC=SSC/(R-1)=20.222/2=10.111
(3)
SSE=(每一个值-行均值-列均值+总均值)^2=(9-5.333-7.333+5.222)^2+...+(3-3.667-4.333+5.222)^2=9.778
MSE=SSE/(R-1)(C-1)=9.778/4=2.444
(4)
SST=(每一个值-总均值)^2=SSR+SSC+SSE=43.556
FR=MSR/MSE=2.773~F(C-1,(R-1)(C-1))即F(2,4)
FC=MSC/MSE=4.136~F(R-1,(R-1)(C-1))即F(2,4)
根据显著性水平确定拒绝域,当FR>Fα时,行变量有显著影响;当FC>Fα时,列变量有显著影响
关系强度R^2=(SSR+SSC)/SST
5、有相互作用的两因素方差分析
有相互作用的两个因素除了各自产生影响外,还具有协同影响效应,主题流程与无相互作用流程十分接近,只需要再多考虑一层相互影响即可。
由于有相互作用每一个影响因素都应该多次试验取平均值,如:

最后形成统计表,如:

计算方法如下:
(1)
SSR=列数*每个单元格内是几个数的平均*行方差=3*3*[(5.222-5)^2+..]=6.222
MSR=SSR/(C-1)=3.111
(2)
同理:
SSC=3*3*[(5.556-5)^2+...]=28.667
MSC=SSC/(R-1)=14.333
(3)协同影响程度
SSRC=n*(每一个值-行均值-列均值+总均值)^2=3*[(3.667-5.222-5.556+5)^2+...]=65.778
MSRC=SSRC/(R-1)(C-1)=16.444
(4)随机误差的影响:每个单元格内的数据进行汇总的方差
SSE=[(5-3.667)^2+(4-3.667)^2+(2-3.667)^2]+...=25.333
MSE=SSE/(行*列*每个单元格内的数-1)=SSE/(R*C*(K-1))=25.333/18=1.407
(5)计算统计量
FR=MSR/MSE=2.211~F(C-1,R*C*(K-1))
FC=MSC/MSE=10.184~F(R-1,R*C*(K-1))
FRC=MSRC/MSE=11.684~F((R-1)(C-1),R*C*(K-1))
根据F检验确定R因素,C因素以及协同作用的影响程度最大。
三、一些变通
在一些比例类指标中,如留存率也是可以转化成双因素的方差分析的。比如我们要分析三个广告方案对购买率的影响,就可以将数据整理为如下列表:
