欢迎光临散文网 会员登陆 & 注册

相关性的那些事 | 读《简单统计学》- 5

2021-03-14 20:25 作者:曹操读书  | 我要投稿

这是读《简单统计学》的第 5 篇文章。


「啤酒和尿布」是数据分析中的「经典案例」,两个看似不相关的东西,竟然具有相关性,还能产生商业价值。

最初看到这个「案例」的时候,是不是觉得数据分析很奇妙?从数据的相关性中发现商机,是不是还挺激动人心的?

不过很遗憾,「啤酒和尿布」是个段子,是有人为了推销数据产品而编造的。

这个段子很容易验证,只要去超市走一圈就知道了。

哪个员工敢把啤酒和尿布放在一起,超市经理一定会开了他。

除非经理也不想干了,要逼疯来购物的男人女人们,以及公司的合规部门。

虽然「啤酒和尿布」是编造的,但还真有一个关于啤酒和婚姻的数据。



1想结婚?请喝啤酒。



这是美国 1960-1985 的啤酒销量和已婚人口的数量。二者的相关性达到了惊人的99%。

单看这两个数据,能得到什么结论呢?

婚姻是爱情的坟墓?因为婚后生活太痛苦了,所以人们需要借酒消愁。

喝啤酒会碰撞出爱情的火花?所以想结束单身狗生活就应该多喝啤酒。

不过,为什么是啤酒呢?

红酒行不行?

白酒行不行?

我点个Rio是不是就注定单身了?

其实,还有一个变量和啤酒销量、结婚人数高度相关,就是人口数量。

人口多,抽烟喝酒的人多,谈恋爱结婚的人也多。当然,如果愿意生孩子的话,卖出的尿布也会多。

简单地说,如果把和人口相关的数据放在一起,你会发现这些数据都有相关性。

所以,结婚人数和啤酒销量并没有什么因果逻辑,两个数据都是在随着人口数量而增长。

啤酒和婚姻是《简单统计学》里面的一个案例,这个案例说明,相关性不代表因果性

两个看起来趋势一致的现象,可能并没有什么关系,而是另一个因素同时驱动了它们

所谓的相关性,只是恰好把两个趋势一致的数据放在了一起而已。

当然,你也可以故意把趋势一致的数据放在一起,这样你就能骗人了。



2矿场不会影响房价,吗?



2005年,美国一个矿业公司想在南加州的蒂梅丘拉建造一个超级采石场。蒂梅丘拉的居民反对这个计划,因为担心房产价值会下跌。

不过,咨询师指出,加州科罗纳市的采石场已经存在了几十年了,那里的房价与没有采石场的城市具有几乎相同的增长率。

因此,采石场不会影响房产价值。

所以你应该欢迎在自己的房子附近建采石场吗?

当然是拒绝啊!

《简单统计学》里面是这样写的:

当任何两样事物随时间增长时,它们之间可能没有任何因果关系,但它们仍然具有统计相关性。

矿场生产和房产价值也是同样的道理。二者都随时间增长,但它们之间不一定存在因果关系。

2006 年,一份针对俄亥俄住宅的研究表明,距离采石场 1.6 公里的住宅价值下降了 15%,距离采石场 3.2 公里的住宅价值下降了 9% 。

所以,看起来相同的增长率,其实前面还有一个巨大的下跌。

再读一遍这句话:

当任何两样事物随时间增长时,它们之间可能没有任何因果关系,但它们仍然具有统计相关性。

说到相关性,你还记不记得去年很多茅台啊、茶水啊抑制新冠病毒的新闻?

相比矿场和房价,这样的新闻更可恶。因为这是拿人的生命健康开玩笑。

随着时间的发展,溶液里的病毒逐渐死亡,从数据上看,加进去的东西和病毒死亡确实有相关性,但并不一定有因果性。

打个粗俗的比方,我撒泡尿进去,然后病毒死了,能说明我的尿抑制病毒么?

不能啊。

相关性不代表因果性

更何况,体外试验和体内试验是完全不同的。

所以不要被相关性欺骗了。

挖掘相关性没错,但我们在分析问题的时候,应该把分析模型建立在因果逻辑上,而不是相关性上。

比如下面两个例子,就是应用了高度相关且有因果逻辑的分析模型。



3「四万万」同胞是怎么来的



有人说民国时期的「四万万」人口是根据食盐销量推算出来的,这可是大错特错了。

我国早在公元前 2100 多年的夏禹时代就有过人口统计:

禹平水土,定九州,计民数。《史记·夏本纪》

西周的时候就有了专门统计人口的官吏和户籍制度:

司民,掌登万民之数,自生齿以上,皆书于版。《周礼·秋官》

五家为邻,五邻为里《周礼·地官》

也有很多思想家提出过人口统计的思想:

分春日书比,立夏日月程,秋日大稽,与民数得亡。《管子·乘马》

以秋岁末之时,阅其民,案家人比地,定什伍口数,别男女大小。《管子·度地》

四境之内,丈夫女子皆有名于上。《商君书·境内》

举民众口数,生者著,死者削。《商君书·去强》

不过古时候地广人稀,战乱频繁,人口普查是个辛苦的工作,错漏在所难免。

而且百姓商贾为了逃避兵役、偷税漏税,往往谎报、瞒报人口数据。

为了准确统计人口,古代的政府想了很多办法。

比如,汉朝时实行「案比」,就是「案户比民」,要求本人在指定的时间到户口登记处核验。

仲秋之月,县道皆案户比民。《后汉书·礼仪志》

《二十四孝》之一《行佣供母》的主角,每年都按时参加「案比」。

江革字次翁,齐国临淄人也。少失父,独与母居……每至岁时,县当案比,革以母老,不欲摇动,自在辕中挽车,不用牛马,由是乡里称之曰「江巨孝」。《后汉书·江革传》

简单的说,就是:江革母亲年事已高,但是每年也要去县衙核对户籍。江革担心牛马拉车会有颠簸,坐着不舒服,所以他甘当牛马,自己拉车。于是,乡里人称他为「江巨孝」。

比如,按人口分配「升学」名额。

隋唐开始科举制度后,就按人口分配科举名额。

升学当官和人口挂钩,想当地多出举人、进士,有更多的人能当官,就别瞒报人口。

凡贡人,上州岁贡三人,中州二人,下州一人。若有茂才异等,亦不抑以常数。《唐六典·三府督护州县官吏》

因为科举名额要不要按人口分配的事,北宋的时候,欧阳修和司马光,对,就是那个砸缸的司马光,还发生过激烈的争执。

司马、欧阳二公之论不同, 司马公之意主于均额, 以息奔竞之风, 欧阳公之意主于核实, 以免缪滥之弊。要之, 朝廷既以文艺取人, 则欧公之说为是 。《文献通考·选举考》

比如清朝雍正时期推行「摊丁入亩」,从收人头税,改为收土地税。

结果到道光的时候,统计的人口从2600万增长为4.1亿。

115年人口增长 15 倍,这可不是靠生孩子能完成的,而是之前瞒报漏报的人口太多了。

雍正十二年,二千六百四十一万七千九百三十二口……道光二十九年,四万一千二百九十八万六千六百四十九口。《清史稿·卷一百二十》

你看,不用到民国,道光的时候就知道有 4 亿人口了。

那用「盐」计算人口是怎么回事呢?

虽然古代政府想了很多办法来统计人口,但数据难免不准,所以有很多人根据相关性建立了人口估算模型。

比如粮食消耗,土地数量,相对来说更准确的,是「食盐-人口」模型。

这是一个有高度相关性,也有因果逻辑的计算模型。

早在春秋时期,我们就知道食盐的销量和人口数量高度相关,而且消耗量比较稳定,属于刚需。

十口之家,十人食盐,百口之家,百人食盐。《管子·地数》

终月,大男食盐五升少半,大女食盐三升少半;吾子食盐二升少半。《管子·海王》

夫食盐多寡,虽人无定额,然大抵每人每年以食盐十斤,作为平均数。《中国盐政实录》

唐代史学家杜佑,就曾根据每户平均人数和食盐消耗量,估算全国的总户数。

计诸道簿帐所收可有二百五十余万户……食盐知见在之数者,采晋隋旧典制置可得五百万矣。《通典·食货》

食盐销量和人口数量高度相关,也有一定的因果逻辑,那么政府可以应用「食盐-销量」模型,来计算人口啊。

错。

自古官方有记录的人口数据,都是人口统计的结果,而不是根据食盐销量估算的。

民国也是如此。

1912年,中华民国成立的那一年就进行过人口普查,但是具体的执行情况已经没有记录了,只知道一个数字,419,640,279。

估计这是孙中山说四万万民众的依据。

1928年,南京国民政府着手调查户口,但是因为管理混乱、效率低下,最终只有13个省完成了「作业」,剩下的省市,要么「作业」没做完,要么连做也没做。

最后没办法,民国政府内政部不得不估算剩下省市的户口数量。

当然不是用食盐销量估算的,而是根据人口密度。

简单的说,先计算各省面积,再估算各省人口密度(用的平均数),最后计算得出人口数据。

最终内政部估算出 1928 年全国人口总数为 474,787,386 人 。

这是民国政府第一次正式发布的全国人口总数 , 也是 20 世纪经常说的「四万万」的重要来源。 

所以「四万万同胞」是统计计算得来的,而不是用「食盐销量」推算的。

为什么不用「食盐-人口」模型估算人口呢?因为太不准确了。

「食盐-人口」模型看似只有两个变量,十分简单,但是这两个变量,都很难拿到准确的数值。

比如食盐销量,受价格、走私的影响。甚至有的朝代根据统计人口限制食盐产量,导致供不应求。官员瞒报漏报也会影响统计数据的准确性。

熙宁中,蜀盐私贩者众,禁不能止。《宋史·卷一百八十三》

令两京官吏人等及各处官民户口食盐。《明会典》

盐法之弊,多因商人匿引不缴,有司纵商不究。《孝宗实录·卷一百七十一》

比如食盐的人均消耗数量,都是统计人员的经验数据,没有定数。

丁男日给米二升、盐二勺五撮,妻、妾、老男、小则减之。《大唐六典·卷十九》

本司岁办额盐四十八万引,行盐之地,两浙、江东凡一千九百六万余口。每日食盐四钱一分八厘,总而计之,为四十四万九千余引。《元史·卷九十七》

承运库大使周端等言,广东地广民稀,盐课无商中纳,军民多食私盐,宜令所司核实人口,大口岁食盐十二斤,小口半之。《明太宗实录·卷二十八》

而且,食盐不是只能吃的,腌菜腌肉,养马喂牛,也要用盐。

盐,一人日支半合,一月一升五合,一年一斗八升。

马盐,一马日支盐三合,一月九升,六个月五斗四升。《神机制敌太白阴经·人粮马料篇》

一共两个变量,两个都不准确,那最终结果肯定也不准确啊。历朝历代的政府都知道这个问题,官方也就不会用这个模型来计算人口。

「食盐-人口」模型看起来很丰满,应用起来也真的很骨感。

所以啊,分析模型是有适用条件的,不能因为有相关性、有因果逻辑,就盲目套用。

但是,如果能够拿到准确的销量、用量的数值,「食盐-人口」模型算得上是一个不错的分析模型。

「啤酒与尿布」是段子,「食盐-人口」模型不靠谱,那基于相关性挖掘数据就没有价值了么?

有的。

下面这个案例就是通过挖掘用户数据的相关性,建立分析模型,帮助公司更好经营的。



4你怀孕了,超市知道



2003 年左右,一名愤怒的男子走进明尼阿波利斯的塔吉特超市:

「我要见你们经理,

「我女儿还在上高中,你们却给她发婴儿衣服和婴儿床的优惠券?

「你们是怂恿她怀孕吗?」

超市经理很迷茫,他查看了邮箱,发现塔吉特确实给这个男人的女儿发过育儿用品的优惠券,甚至还有孕妇服的广告。

经理只好道歉,但是在几天后回访的时候,这名愤怒的男子却有点不好意思,因为他的女儿真的怀孕了。

那么,塔吉特是怎么发现孕期女性的呢?

通过数据挖掘,寻找相关性。

塔吉特的统计人员发现,女性在备孕期和怀孕后,会开始购买大量的营养素和没有味道的洗浴用品。

购买行为和用户身体状态有高度的相关性,而且,还有一定的因果逻辑。

统计人员找出了大约 25 种产品,并据此建立了「怀孕预测」模型,估算顾客的预产期。

上面那个愤怒男子的事件,就发生在「怀孕预测」模型建立一年后。

塔吉特这个「怀孕预测」模型的案例来自《纽约时报》的一篇报道,标题是《公司是怎么知道你的秘密的(How Companies Learn Your Secrets)》,作者是商业调查记者查尔斯·杜希格,他也是《习惯的力量》的作者。

单看作者是不是就比较可靠?

而且这个案例有名有姓,十分具体,只有这一个版本,比「啤酒与尿布」靠谱了 10000 个特朗普。

不过,在杜希格写了这篇新闻并且把新闻摘要发给塔吉特之后,塔吉特就把杜希格拉入了黑名单,拒绝他的任何采访。

这个举动,意味深刻啊。

那么,这个「怀孕预测」模型有效吗?

新闻里说,在基于「怀孕预测」模型的营销活动开始后不久,塔吉特的母婴产品销量就出现了爆炸式增长。

2002 年至 2010 年期间,塔吉特的收入从 440 亿美元增长到 670 亿美元。2005 年,塔吉特总裁格雷格·施泰因哈费尔(Gregg Steinhafel)也说,「高度关注吸引特定客户群体(如母亲和婴儿)的产品」。

所以,这个基于相关性建立的模型,是有效的,经过了市场验证的。

这么看来,数据挖掘还是很有用的嘛。

不过,先别激动,我们要吸取下「食盐-人口」模型的教训,做出一点怀疑。

毕竟「怀孕预测」模型的因果逻辑并不是绝对的。

比如,开始购买营养素、没有味道的洗浴用品,一定是因为备孕、怀孕引起的吗?

答案当然是否定的。

事实上,在《纽约时报》那篇新闻的评论区,就有反例:

一位没有备孕怀孕的女士,因为总是购买没有香味的洗浴用品和偶尔购买大包的棉球,结果收到了一盒婴儿配方奶粉。

导致这种错误的原因很简单,模型只是模型,只能去寻找符合设定的行为模式,然后做出行动。

更何况这个模型只是根据「相关性」建立的。

由于这位女士的行为符合了预测模型的行为模式,所以系统就机械的邮寄促销产品。

所以,基于相关性的模型并不是 100% 可靠的,也有一定的概率出错。

切记,相关性不代表因果性



5怎么避免商业营销模型的骚扰?



虽然相关性模型不是 100% 准确,但现在个人信息的泄露还是难免的。我们在线下线上消费时,也总会被要求填写各种隐私信息。

垃圾短信删也删不完,推销电话也一个接一个。

那,怎么避免营销模型的骚扰呢?

很多的商业分析模型、营销模型都是基于相关性建立的,那么减少相关行为、避免被模型跟踪到就可以了。

比如,用现金,这样消费行为就无法被记录。当然这在咱国内是比较难的。

比如,用虚拟身份。

下次商家收集你的信息的时候,可以写自己芳龄 18,博士毕业,年入 1 个亿。也可以写自己 108 岁,时尚前卫,喜欢打篮球。

混乱的信息会让营销模型难以发现行为模式,也就避免了促销信息。

比如,用小号。

电话填小号、邮箱填小号,微博、微信也设一个小号。这样所有的促销信息都会关联到小号上,即使模型发现你的行为符合了促销的要求,也找不到你。


还记得《容易上当的人,都是聪明人》里面提到的内容吗?

寻找模式是人类的天赋。通过套用模式,我们可以更大限度的消除未知、消除风险。

各种分析模型也是寻找模式,而且相比人类,更加死板、机械化。

从相关性中发现的模式,确实能建立有价值的分析模型,塔吉特就是案例。

但很多时候,模式,特别是基于相关性的模式,并不是 100% 有效的

所以发现相关性之后,还要考虑下两件事情有没有因果逻辑。

再读下这句话:

当任何两样事物随时间增长时,它们之间可能没有任何因果关系,但它们仍然具有统计相关性。

很多时候人们会有意无意的把没有因果逻辑的事情放在一起,得出看似相关的结论。

而这些结论往往是违反常识的,比如 啤酒促进结婚,矿场不会影响房价。

所以,如果听说了有相关性却违反常识的数据、新闻的时候,可以先想想两件事是不是有因果关系。

你有很大的概率,发现数据骗子。

相关性不代表因果性。


今天读了什么书?有什么收获?

把你的收获,以 #读《***》# 的形式留言

和我们一起分享吧


相关性的那些事 | 读《简单统计学》- 5的评论 (共 条)

分享到微博请遵守国家法律