欢迎光临散文网 会员登陆 & 注册

《看穿一切数字的统计学》

2023-02-08 22:29 作者:阿强憨憨  | 我要投稿

究竟什么样的教育方法才是最好的,对于这个问题的回答也与医疗问题一样属于充满不确定性的领域,因为受教育者的特性和能力以及周围的环境都会对最终的结果产生重要影响。当自己生病的时候,想必没有人会马上去找百岁老人询问长寿的秘诀吧?可是,那些为孩子成绩烦恼的家长,却争先恐后地购买将所有孩子都送进东京大学的老年人所写的个人经验,会出现这种现象难道大家不觉得很莫名其妙吗?

 

 

像这种“实际上没有任何区别,只是因为误差或偶然产生数据差(甚至有可能包括极端的差距)的概率”在统计学上称为p值。这个p值越小(一般在5%以下),数据就越准确,证明其不是偶然导致的结果。

 

“进行适当的比较”、“不只进行单纯的收集统计,还清楚误差与p值”,只要掌握了这两点,就能够找到远超经验与直觉的秘籍。

 

之前提到过的“一次购买两台缝纫机可以打9折”的促销活动。这一方案所引发的现实结果虽然十分简单,但却是所有人都始料未及的。看到这一促销广告的顾客当然不会为了9折而购买两台缝纫机。但是,他们会为了享受9折的优惠,特意劝说邻居或者朋友一起购买。也就是说,乔安公司或许在不经意间雇用了一个非常优秀的销售团队。结果正如之前所说,看到这一促销广告的顾客与没看到促销广告的顾客相比,人均销量提高了3倍以上。当然,这两组顾客是随机化的结果,除了是否看到促销广告之外的其他条件,基本都是相同的。由此可见,产生这3倍以上的销量差,主要就是因为“是否看到促销广告”。

当我们面对“找不到正确答案的问题”时,首先应该想到的就是进行随机对照试验。只要采取随机对照试验,并且对后续的数据进行采集,就能够找到“怎样做才好”以及“能够创造多少利益”这些问题的答案,至少能够在通往正确判断的道路上实实在在地更进一步。

 

置信水平为95%的置信区间:假设包括0在内的许多回归系数,算出“p值在5%以下时真值”的范围。基本可以认为“真值就在这个范围之内”。 p值:假设回归系数为0的情况下,只能通过数据的随机性推测回归系数的概率。一般来说当这个值在5%以上时,可以认为“就算回归系数为0也不可能出现”。

 

要想防止辛普森悖论,就需要像流行病学的观察研究那样保证条件的一致性。将高中A和高中B的学生的成绩按照男女性别分组,或者将玩暴力游戏的孩子按照家庭环境分组,只要将对结果可能产生影响的条件保持一致进行比较,就能够避免辛普森悖论的产生。这种将具有同样条件的群体进行比较分析的方法,被称为分组分析。


《看穿一切数字的统计学》的评论 (共 条)

分享到微博请遵守国家法律