欢迎光临散文网 会员登陆 & 注册

数据分析方法(2)——AB测试

2023-03-04 23:24 作者:改拟称已存在  | 我要投稿

测试就不得不先提假设检验,因此我们先由假设检验谈起。


一、假设检验简介

作用:判断样本与总体(or 样本与样本)之间的误差是由抽样误差所产生的还是由于本质差别所产生的。

基本思想:小概率定理,即一次试验中小概率事件不可能发生。

主要步骤:

1、提出原假设和被择假设(见章节二)

2、从总体中抽取样本进行统计

3、根据样本数量确定检验量(见章节五)

4、根据显著性水平确定拒绝域(见章节三)

5、计算检验统计量与临界值比较(见章节四)


二、关于假设

原假设:H0在AB测试中一般使用想要拒绝的假设,大多为“新版不如原版效果好”。

在实际测试中主要控制α,即减小第一类错误发生的可能(情愿犯第二类错误),这样可以尽量保留老版本,避免版本更新的资源和减免用户学习成本。

被择假设:H0的补集H1,即H0取=时,H1取≠


三、显著性水平与拒绝域

1、两类错误:

第一类错误(弃真错误):即原假设是真的,但拒绝了原假设。这个错误的概率被称为显著性水平α。

第二类错误(取伪错误):即原假设是假的,但采纳了原假设。这个错误的概率被称为β。在假设检验中1-β被称为统计检验力。

(注:α与β属于不同的分布,显然α+β≠1;但在其他条件不变的情况下,α变小,临界值变小,β就会变大)

2、拒绝域的临界值

由确定好的显著性水平α对应到计算的统计量查表所得,一般在实验前与业务确定:

显著性水平α越小,犯第一类错误的概率越小,一般取值0.01,0.05:

常用值,α=0.01,单侧z=2.33,双侧z=2.58;α=0.05,单侧z=1.65,双侧z=1.96


四、拒绝域与检验方式

根据假设的不同分为单侧检验(左侧检验和右侧检验)以及双侧检验:

双侧检验:原假设取=或者≠时,其中的拒绝域Z>Z(α/2) & Z<-Z(α/2)

右侧检验:原假设取<或者<=时,其中的拒绝域Z>Z(α)

(在拒绝域中,所检测的均值已经远大于规定值了)

左侧检测:原假设取>或者>=时,其中的拒绝域Z<-Z(α)


五、检验统计量

1、基本原理

通过样本抽样,我们得到了样本的均值方差,此时我们判断样本的分布符合“某一种分布”,并根据这种分布来计算概率,以检验我们的假设是否是小概率,不同的分布便形成了不同的检验统计量。

以Z检验为例,根据中心极限定理,当样本数量足够多时,就可以认为其分布满足正态分布公式,即%5Cbar%7Bx%7D%20~%20N(%5Cmu%2C%20%5Csigma%20%5E2%20%2Fn)。而在标准正态分布N(0,1)中我们可以明确指导其概率P:

如:P(|Z|<1.96)=95%

我们只需要将非标态的分布转变为标准正态分布即可,此时求得:

Z%3D%5Cfrac%7B%5Cbar%7Bx%7D%20-%5Cmu%20%20%7D%7B%5Csigma%2F%5Csqrt%7Bn%7D%20%20%7D%20

其中%5Cbar%7Bx%7D%20为样本均值,μ为验证值(总体均值),σ为总体标准差(未知时用样本标准差替代),n为样本数量。

Z值即为需要与拒绝域比较的检验统计量。


2、常用的检验统计量

根据不同的情况(如不同的样本容量等)就需要采用不同的分布进行计算,常用的统计量如下:

(1)Z检验:大样本容量n>=30,样本满足正态分布,原假设检验均值

单样本比较(μ=μ0)                Z%3D%5Cfrac%7B%5Cbar%7Bx%7D%20-%5Cmu%20%20%7D%7B%5Csigma%2F%5Csqrt%7Bn%7D%20%20%7D%20

双样本比较(μ1=μ2)         Z%3D%5Cfrac%7B%7C%5Cbar%7Bx%7D_%7B1%7D-%5Cbar%7Bx%7D_%7B2%7D%20%7C%20-%7C%5Cmu_%7B1%7D%20-%20%5Cmu_%7B2%7D%7C%20%7D%7B%5Csqrt%7B%5Csigma_%7B1%7D%20%20%5E2%2F%20n%2B%5Csigma_%7B2%7D%20%20%5E2%2F%20n%7D%20%20%7D%20

(2)t检验:小样本容量,满足t分布

(注:X~N(0,1)标准正态分布, Y~%5Cchi%20%5E2(n) 卡方分布,则T=%5Cfrac%7BX%7D%7B%5Csqrt%7BY%2Fn%7D%20%7D%20~t(n)满足自由度为n的t分布)

单样本比较                                  t%3D%5Cfrac%7B%5Cbar%7Bx%7D%20-%5Cmu%20%20%7D%7Bs%2F%5Csqrt%7Bn%7D%20%20%7D%20

(独立)双样本比较            t%3D%5Cfrac%7B%7C%5Cbar%7Bx%7D_%7B1%7D-%5Cbar%7Bx%7D_%7B2%7D%20%7C%20-%7C%5Cmu_%7B1%7D%20-%20%5Cmu_%7B2%7D%7C%20%7D%7B%5Csqrt%7BS_%7B1%7D%20%20%5E2%2F%20n%2BS_%7B2%7D%20%20%5E2%2F%20n%7D%20%20%7D%20

(非独立)双样本比较         t%3D%5Cfrac%7B%7C%5Cbar%7Bx%7D_%7B1%7D-%5Cbar%7Bx%7D_%7B2%7D%20%7C%20-%7C%5Cmu_%7B1%7D%20-%20%5Cmu_%7B2%7D%7C%20%7D%7BSw*%5Csqrt%7BS_%7B1%7D%20%20%5E2%2F%20n%2BS_%7B2%7D%20%20%5E2%2F%20n%7D%20%20%7D%20

其中Sw%3D%5Csqrt%7B%5Cfrac%7B(n_%7B1%7D%20-1)*S_%7B1%7D%5E2%2B%20(n_%7B2%7D%20-1)*S_%7B2%7D%5E2%7D%7Bn_%7B1%7D%2Bn_%7B2%7D-2%7D%20%7D%20

(3)卡方检验:比较样本方差与已知方差的关系(如产品质量间差异是否达到规定值)

%5Cchi%20%5E2%3D%5Cfrac%7B(n-1)S%5E2%20%7D%7B%5Csigma%20%5E2%7D%20

(4)F检验:比较两个样本之间的方差差异(其中S1>S2)

F%3D%5Cfrac%7BS_%7B1%7D%5E2%20%20%7D%7BS_%7B2%7D%5E2%20%7D%20


3、样本成数的统计检验

当需要考察的值为一个比值(比值的本身没有方差的概念),如增长率、留存率等,此时的分布为可以视为一个二项分布b(n,p),当二项分布取样较多时可以近似为一个正态分布,均值np,方差np(1-p),因此可以求得检验统计量:

单样本成数检验:                            Z%3D%5Cfrac%7B%5Cbar%7Bx%7D%20-p_%7B0%7D%20%20%7D%7B%5Csqrt%7Bp_%7B0%7D(1-p_%7B0%7D)%2Fn%7D%7D%20

双样本成数检验:        Z%3D%5Cfrac%7B%7C%5Cbar%7Bx%7D_%7B1%7D-%5Cbar%7Bx%7D_%7B2%7D%20%7C%20-%7Cp_%7B1%7D%20-%20p_%7B2%7D%7C%20%7D%7B%5Csqrt%7B%5Cbar%7Bx%7D_%7B1%7D(1-%5Cbar%7Bx%7D_%7B1%7D)%2F%20n_%7B1%7D%2B%5Cbar%7Bx%7D_%7B2%7D(1-%5Cbar%7Bx%7D_%7B2%7D)%2F%20n_%7B2%7D%7D%20%7D%20

其中大样本假定np,n(1-p)均>5即可


六、多个样本间的假设检验(方差分析)

一般的假设检验方法最多只能判断两个样本,多个样本间的检验需要用到方差分析,为了避免文章太长这里先略过,单独开一篇专栏写这一块的内容。


七、AB测试

AB测试的主题即为假设检验过程,但在AB测试中需要考虑一些额外的细节因素:

(1)前提条件:

只能小规模放大的试验(如遇定价差异等大问题容易影响用户满意度)

稳定性假设,用户相互之间不干扰,且互不干扰(避免新算法专抢旧算法的单)

(2)抽样方法:

简单随机抽样、分层抽样、等距抽样等

(3)前期准备:

进行AA测试查看分组差异,再进行AB测试;

但如果留存过低会使得AA测试致AB测试之间的用户不一致,产生影响,可以考虑AAB测试

(4)设立流程:

如果AB测试需要同时测试多个内容,需要遵守公平原则,如:

广告形式A→弹出形式1

                →弹出形式2

广告形式B→弹出形式1

                →弹出形式2


数据分析方法(2)——AB测试的评论 (共 条)

分享到微博请遵守国家法律