数据分析方法（2）——AB测试

2023-03-04 23:24 作者:改拟称已存在 0人读过 | 我要投稿

测试就不得不先提假设检验，因此我们先由假设检验谈起。

一、假设检验简介

作用：判断样本与总体（or 样本与样本）之间的误差是由抽样误差所产生的还是由于本质差别所产生的。

基本思想：小概率定理，即一次试验中小概率事件不可能发生。

主要步骤：

1、提出原假设和被择假设（见章节二）

2、从总体中抽取样本进行统计

3、根据样本数量确定检验量（见章节五）

4、根据显著性水平确定拒绝域（见章节三）

5、计算检验统计量与临界值比较（见章节四）

二、关于假设

原假设：H0在AB测试中一般使用想要拒绝的假设，大多为“新版不如原版效果好”。

在实际测试中主要控制α，即减小第一类错误发生的可能（情愿犯第二类错误），这样可以尽量保留老版本，避免版本更新的资源和减免用户学习成本。

被择假设：H0的补集H1，即H0取=时，H1取≠

三、显著性水平与拒绝域

1、两类错误：

第一类错误（弃真错误）：即原假设是真的，但拒绝了原假设。这个错误的概率被称为显著性水平α。

第二类错误（取伪错误）：即原假设是假的，但采纳了原假设。这个错误的概率被称为β。在假设检验中1-β被称为统计检验力。

（注：α与β属于不同的分布，显然α+β≠1；但在其他条件不变的情况下，α变小，临界值变小，β就会变大）

2、拒绝域的临界值

由确定好的显著性水平α对应到计算的统计量查表所得，一般在实验前与业务确定：

显著性水平α越小，犯第一类错误的概率越小，一般取值0.01,0.05：

常用值，α=0.01，单侧z=2.33，双侧z=2.58；α=0.05，单侧z=1.65，双侧z=1.96

四、拒绝域与检验方式

根据假设的不同分为单侧检验（左侧检验和右侧检验）以及双侧检验：

双侧检验：原假设取=或者≠时，其中的拒绝域Z>Z(α/2) & Z<-Z(α/2)

右侧检验：原假设取<或者<=时，其中的拒绝域Z>Z(α)

（在拒绝域中，所检测的均值已经远大于规定值了）

左侧检测：原假设取>或者>=时，其中的拒绝域Z<-Z(α）

五、检验统计量

1、基本原理

通过样本抽样，我们得到了样本的均值方差，此时我们判断样本的分布符合“某一种分布”，并根据这种分布来计算概率，以检验我们的假设是否是小概率，不同的分布便形成了不同的检验统计量。

以Z检验为例，根据中心极限定理，当样本数量足够多时，就可以认为其分布满足正态分布公式，即 $%5Cbar%7Bx%7D%20$ ~ $%20N(%5Cmu%2C%20%5Csigma%20%5E2%20%2Fn)$ 。而在标准正态分布N(0,1)中我们可以明确指导其概率P:

如：P(|Z|<1.96)=95%

我们只需要将非标态的分布转变为标准正态分布即可，此时求得：

$Z%3D%5Cfrac%7B%5Cbar%7Bx%7D%20-%5Cmu%20%20%7D%7B%5Csigma%2F%5Csqrt%7Bn%7D%20%20%7D%20$

其中 $%5Cbar%7Bx%7D%20$ 为样本均值，μ为验证值（总体均值），σ为总体标准差（未知时用样本标准差替代），n为样本数量。

Z值即为需要与拒绝域比较的检验统计量。

2、常用的检验统计量

根据不同的情况（如不同的样本容量等）就需要采用不同的分布进行计算，常用的统计量如下：

(1)Z检验：大样本容量n>=30，样本满足正态分布，原假设检验均值

单样本比较（μ=μ0） $Z%3D%5Cfrac%7B%5Cbar%7Bx%7D%20-%5Cmu%20%20%7D%7B%5Csigma%2F%5Csqrt%7Bn%7D%20%20%7D%20$

双样本比较（μ1=μ2） $Z%3D%5Cfrac%7B%7C%5Cbar%7Bx%7D_%7B1%7D-%5Cbar%7Bx%7D_%7B2%7D%20%7C%20-%7C%5Cmu_%7B1%7D%20-%20%5Cmu_%7B2%7D%7C%20%7D%7B%5Csqrt%7B%5Csigma_%7B1%7D%20%20%5E2%2F%20n%2B%5Csigma_%7B2%7D%20%20%5E2%2F%20n%7D%20%20%7D%20$

(2)t检验：小样本容量，满足t分布

（注：X~N(0,1)标准正态分布, Y~ $%5Cchi%20%5E2(n)$ 卡方分布，则T= $%5Cfrac%7BX%7D%7B%5Csqrt%7BY%2Fn%7D%20%7D%20$ ~t(n)满足自由度为n的t分布）

单样本比较 $t%3D%5Cfrac%7B%5Cbar%7Bx%7D%20-%5Cmu%20%20%7D%7Bs%2F%5Csqrt%7Bn%7D%20%20%7D%20$

（独立）双样本比较 $t%3D%5Cfrac%7B%7C%5Cbar%7Bx%7D_%7B1%7D-%5Cbar%7Bx%7D_%7B2%7D%20%7C%20-%7C%5Cmu_%7B1%7D%20-%20%5Cmu_%7B2%7D%7C%20%7D%7B%5Csqrt%7BS_%7B1%7D%20%20%5E2%2F%20n%2BS_%7B2%7D%20%20%5E2%2F%20n%7D%20%20%7D%20$

（非独立）双样本比较 $t%3D%5Cfrac%7B%7C%5Cbar%7Bx%7D_%7B1%7D-%5Cbar%7Bx%7D_%7B2%7D%20%7C%20-%7C%5Cmu_%7B1%7D%20-%20%5Cmu_%7B2%7D%7C%20%7D%7BSw*%5Csqrt%7BS_%7B1%7D%20%20%5E2%2F%20n%2BS_%7B2%7D%20%20%5E2%2F%20n%7D%20%20%7D%20$

其中 $Sw%3D%5Csqrt%7B%5Cfrac%7B(n_%7B1%7D%20-1)*S_%7B1%7D%5E2%2B%20(n_%7B2%7D%20-1)*S_%7B2%7D%5E2%7D%7Bn_%7B1%7D%2Bn_%7B2%7D-2%7D%20%7D%20$

(3)卡方检验：比较样本方差与已知方差的关系（如产品质量间差异是否达到规定值）

$%5Cchi%20%5E2%3D%5Cfrac%7B(n-1)S%5E2%20%7D%7B%5Csigma%20%5E2%7D%20$

(4)F检验:比较两个样本之间的方差差异(其中S1>S2)

$F%3D%5Cfrac%7BS_%7B1%7D%5E2%20%20%7D%7BS_%7B2%7D%5E2%20%7D%20$

3、样本成数的统计检验

当需要考察的值为一个比值（比值的本身没有方差的概念），如增长率、留存率等，此时的分布为可以视为一个二项分布b(n,p)，当二项分布取样较多时可以近似为一个正态分布，均值np，方差np(1-p)，因此可以求得检验统计量：

单样本成数检验： $Z%3D%5Cfrac%7B%5Cbar%7Bx%7D%20-p_%7B0%7D%20%20%7D%7B%5Csqrt%7Bp_%7B0%7D(1-p_%7B0%7D)%2Fn%7D%7D%20$

双样本成数检验： $Z%3D%5Cfrac%7B%7C%5Cbar%7Bx%7D_%7B1%7D-%5Cbar%7Bx%7D_%7B2%7D%20%7C%20-%7Cp_%7B1%7D%20-%20p_%7B2%7D%7C%20%7D%7B%5Csqrt%7B%5Cbar%7Bx%7D_%7B1%7D(1-%5Cbar%7Bx%7D_%7B1%7D)%2F%20n_%7B1%7D%2B%5Cbar%7Bx%7D_%7B2%7D(1-%5Cbar%7Bx%7D_%7B2%7D)%2F%20n_%7B2%7D%7D%20%7D%20$

其中大样本假定np,n(1-p)均>5即可

六、多个样本间的假设检验（方差分析）

一般的假设检验方法最多只能判断两个样本，多个样本间的检验需要用到方差分析，为了避免文章太长这里先略过，单独开一篇专栏写这一块的内容。

七、AB测试

AB测试的主题即为假设检验过程，但在AB测试中需要考虑一些额外的细节因素：

（1）前提条件：

只能小规模放大的试验（如遇定价差异等大问题容易影响用户满意度）

稳定性假设，用户相互之间不干扰，且互不干扰（避免新算法专抢旧算法的单）

（2）抽样方法：

简单随机抽样、分层抽样、等距抽样等

（3）前期准备：

进行AA测试查看分组差异，再进行AB测试；

但如果留存过低会使得AA测试致AB测试之间的用户不一致，产生影响，可以考虑AAB测试

（4）设立流程：

如果AB测试需要同时测试多个内容，需要遵守公平原则，如：

广告形式A→弹出形式1

→弹出形式2

广告形式B→弹出形式1

→弹出形式2

标签：数据分析

数据分析方法（2）——AB测试

数据分析方法（2）——AB测试的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

数据分析方法（2）——AB测试

本文作者的其他文章

数据分析方法（2）——AB测试的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

数据分析方法（2）——AB测试的评论 (共条)