数据分析方法(2)——AB测试

测试就不得不先提假设检验,因此我们先由假设检验谈起。
一、假设检验简介
作用:判断样本与总体(or 样本与样本)之间的误差是由抽样误差所产生的还是由于本质差别所产生的。
基本思想:小概率定理,即一次试验中小概率事件不可能发生。
主要步骤:
1、提出原假设和被择假设(见章节二)
2、从总体中抽取样本进行统计
3、根据样本数量确定检验量(见章节五)
4、根据显著性水平确定拒绝域(见章节三)
5、计算检验统计量与临界值比较(见章节四)
二、关于假设
原假设:H0在AB测试中一般使用想要拒绝的假设,大多为“新版不如原版效果好”。
在实际测试中主要控制α,即减小第一类错误发生的可能(情愿犯第二类错误),这样可以尽量保留老版本,避免版本更新的资源和减免用户学习成本。
被择假设:H0的补集H1,即H0取=时,H1取≠
三、显著性水平与拒绝域
1、两类错误:
第一类错误(弃真错误):即原假设是真的,但拒绝了原假设。这个错误的概率被称为显著性水平α。
第二类错误(取伪错误):即原假设是假的,但采纳了原假设。这个错误的概率被称为β。在假设检验中1-β被称为统计检验力。
(注:α与β属于不同的分布,显然α+β≠1;但在其他条件不变的情况下,α变小,临界值变小,β就会变大)
2、拒绝域的临界值
由确定好的显著性水平α对应到计算的统计量查表所得,一般在实验前与业务确定:
显著性水平α越小,犯第一类错误的概率越小,一般取值0.01,0.05:
常用值,α=0.01,单侧z=2.33,双侧z=2.58;α=0.05,单侧z=1.65,双侧z=1.96
四、拒绝域与检验方式
根据假设的不同分为单侧检验(左侧检验和右侧检验)以及双侧检验:
双侧检验:原假设取=或者≠时,其中的拒绝域Z>Z(α/2) & Z<-Z(α/2)
右侧检验:原假设取<或者<=时,其中的拒绝域Z>Z(α)
(在拒绝域中,所检测的均值已经远大于规定值了)
左侧检测:原假设取>或者>=时,其中的拒绝域Z<-Z(α)
五、检验统计量
1、基本原理
通过样本抽样,我们得到了样本的均值方差,此时我们判断样本的分布符合“某一种分布”,并根据这种分布来计算概率,以检验我们的假设是否是小概率,不同的分布便形成了不同的检验统计量。
以Z检验为例,根据中心极限定理,当样本数量足够多时,就可以认为其分布满足正态分布公式,即~
。而在标准正态分布N(0,1)中我们可以明确指导其概率P:
如:P(|Z|<1.96)=95%
我们只需要将非标态的分布转变为标准正态分布即可,此时求得:
其中为样本均值,μ为验证值(总体均值),σ为总体标准差(未知时用样本标准差替代),n为样本数量。
Z值即为需要与拒绝域比较的检验统计量。
2、常用的检验统计量
根据不同的情况(如不同的样本容量等)就需要采用不同的分布进行计算,常用的统计量如下:
(1)Z检验:大样本容量n>=30,样本满足正态分布,原假设检验均值
单样本比较(μ=μ0)
双样本比较(μ1=μ2)
(2)t检验:小样本容量,满足t分布
(注:X~N(0,1)标准正态分布, Y~ 卡方分布,则T=
~t(n)满足自由度为n的t分布)
单样本比较
(独立)双样本比较
(非独立)双样本比较
其中
(3)卡方检验:比较样本方差与已知方差的关系(如产品质量间差异是否达到规定值)
(4)F检验:比较两个样本之间的方差差异(其中S1>S2)
3、样本成数的统计检验
当需要考察的值为一个比值(比值的本身没有方差的概念),如增长率、留存率等,此时的分布为可以视为一个二项分布b(n,p),当二项分布取样较多时可以近似为一个正态分布,均值np,方差np(1-p),因此可以求得检验统计量:
单样本成数检验:
双样本成数检验:
其中大样本假定np,n(1-p)均>5即可
六、多个样本间的假设检验(方差分析)
一般的假设检验方法最多只能判断两个样本,多个样本间的检验需要用到方差分析,为了避免文章太长这里先略过,单独开一篇专栏写这一块的内容。
七、AB测试
AB测试的主题即为假设检验过程,但在AB测试中需要考虑一些额外的细节因素:
(1)前提条件:
只能小规模放大的试验(如遇定价差异等大问题容易影响用户满意度)
稳定性假设,用户相互之间不干扰,且互不干扰(避免新算法专抢旧算法的单)
(2)抽样方法:
简单随机抽样、分层抽样、等距抽样等
(3)前期准备:
进行AA测试查看分组差异,再进行AB测试;
但如果留存过低会使得AA测试致AB测试之间的用户不一致,产生影响,可以考虑AAB测试
(4)设立流程:
如果AB测试需要同时测试多个内容,需要遵守公平原则,如:
广告形式A→弹出形式1
→弹出形式2
广告形式B→弹出形式1
→弹出形式2