欢迎光临散文网 会员登陆 & 注册

【微科普】数字会骗人吗?(1)

2020-04-17 19:36 作者:景育  | 我要投稿

(本文主要适用于中学生)

《晏子春秋》有云:“橘生淮南则为橘,生于淮北则为枳。”这一谚语脍炙人口,揭示了事物因外部条件的差异,结果也产生了差异。

王老板是林果承包商,一日他听闻有某种新型品种的水果很受欢迎。在经过市场调研后,他发现主要消费人群主要分布在东北与华南。为了缩减水果的供应链,他决定在南方和北方分别试种植两种水果。正如“橘生淮南则为橘,生于淮北则为枳。”所云,他也想对生长在不同地理环境下水果的差异进行研究。他选择控制

到了秋收,他在他的两个果园各取20个样本,统计水果的质量(单位:千克),列表如下:

两个果园水果样本的质量(单位:kg)

通过小学老师教过的计算方法,可以计算出两个果园的平均水果质量,南果园2.01 kg,北果园2.10 kg,二者相差0.09 kg。直观地看,王老板觉得北果园更适合这种水果的生长。他的判断妥当吗?

现在,我们对南、北果园的标准差进行计算。南果园0.183 kg,北果园0.199 kg,两者“比较接近”。总体的标准差0.197 kg。无论是分别的标准差,还是总体的标准差,都比刚刚计算出的北果园比南果园平均质量多0.09 kg大。

不进行规范地数学推导,仅直观地感受,标准差大致在0.18~0.20 kg的范围,而两者平均质量的差异只有0.09 kg,这么说来,似乎王老板的判断有些欠妥

我们现在对几组数据的“离差平方和”进行计算和分析。

所谓离差平方和,指的是对数据组中每一个数据,和它们的平均值作差,然后将差取平方,再加起来。例如数据1、2、3,它们的平均值是2,离差分别是-1、0、1,再取平方则是1、0 、1,那么离差平方和是1+0+1=2 。

计算得南果园二十个样本的离差平方和为0.67 kg²,北果园二十个样本的离差平方和为0.79 kg²,而把四十个样本一起考虑,得到的离差平方和为1.55 kg² 。

有人会问,0.67 + 0.79 = 1.46 ≠ 1.55,那么,多出来的0.09 kg²到哪里去了呢?

这0.09 kg²则是两组之间的离差平方和。上文我们计算得出了“南果园平均0.183 kg,北果园平均0.199 kg”,而0.183 kg和0.199 kg的离差平方和是0.0046 kg²,考虑到两个果园各有20个样本,将0.0046 kg²乘以20,得到约0.09 kg²,恰好是“少掉的”那些离差平方和。

就这样,我们可以列出下表:

南果园 —— 0.67 kg²

北果园 —— 0.79 kg²

两者之间 —— 0.09 kg²

总体上 —— 1.55 kg² 

由此可见,两者之间的差异比较小,两组各自内部的差异比较大。总体上的差异,主要来自于两者内部,而不是两者之间。

在本文的第一部分,我们介绍了王老板的猜想。在本文的第二部分,我们通过比较标准差,发觉组内标准差大于组间的差值,从而认为王老板的猜想不妥。在本文的第三部分,我们又通过比较组内离差平方和与组间离差平方和的方法,认为总体上的差异主要来自两者内部,而不是两者之间。

但是,上面的方法主要是定性的判断,有没有一种更准确、更合理的判断方法呢?

这里需要用到的方法称为“T检验”,T检验的步骤是根据已有的数据,计算得出一个t值,用t值与查表得到的t临界值进行比较,则可以判断“两者的组间差异显著不显著”这个问题。

t值的计算公式这里不列,具体的推导过程也略去不写,有兴趣的朋友可以在参考资料中找到推导、证明与计算过程。

本文以Excel为例,使用Excel的功能自动计算t值与t的临界值。免去了手工计算的麻烦。

Excel截图

首先,需要确保Excel启动了“分析工具库”,可以单击左上角“文件”按钮,再单击“选项”,在“Excel 选项”窗口中,选择“加载项”页面,然后找到“分析工具库”,启动它。

确保启动“分析工具库”

然后,在“数据”选项卡,使用“数据分析”。

在分析工具中选择“t-检验:双样本异方差假设”

在弹出的窗口中,将变量1、变量2的区域分别选择南、北果园,并且选择“标志”,显著性水平α可以是默认的0.05

这样,能够得到一张计算得到的结果表格。

从表格的t Stat一栏我们可以看出,计算得到的t值为-1.55,取绝对值之后便是1.55,而t的双尾临界为2.02,将t值与t的临界值进行比较:

1.55<2.02

便得出结论:两组之间平均值的差异不显著。

本文第四段的方法,是“假设-检验”法的一种。第四段用了相对平易的语言来描述,如果规范一点,则是:

小结:本文的标题为“数字会骗人吗?”,如果阅读完了全文,应该可以体会到:简单地根据数据进行比较、直观地判断有时候会得到欠妥的结论。本文的例子中说明,虽然北果园的平均质量比南果园大,但是这一差异主要来自于果园内部,而非果园之间。

习题1:歌姬甲和歌姬乙最近三个月的投稿数统计如下(数据为虚构):

歌姬甲和歌姬乙最近三个月的投稿数

歌姬甲每个月的投稿数都比歌姬乙多,平均每月的投稿数也比乙多,请问能说明“甲的投稿数显著多于乙”吗?(α取0.05)

习题2:某人对30位UP主进行调查,播放量取投稿后120小时时的播放量,统计结果如下图所示。(数据为虚构)

直观地看,从12月开始,连续三个月都“同比增长”,因而得出判断“这30位UP主的播放量在显著增长”,请问这个判断妥当吗?(α取0.05)

参考文献:

① 机械工业出版社,宗序平《概率论与数理统计》第八章“假设检验”

② 化学工业出版社,李云雁等《试验设计与数据处理》第三章“试验的方差分析”

【微科普】数字会骗人吗?(1)的评论 (共 条)

分享到微博请遵守国家法律