90后,最爱算命?
这是读《简单统计学》的第3篇文章。
说起幸存者偏差,不得不提二战时期,盟军的飞机…
唉,一说起「幸存者偏差」,就提二战飞机的例子,实在太老套、太无聊了。咱说点和生活有关的。
先出一个问题考考你。这个问题是《简单统计学》里面的一个案例。
有人对纽约市兽医院接收的从高层公寓楼坠落的 115 只猫咪进行了调查,发现
从 9 层及以上楼层坠落的猫咪的死亡率为 5%,
从不足 9 层的楼层坠落的猫咪的死亡率为 10%。
根据医生的推测,这是因为从较高楼层坠落的猫咪能够将身体伸展开,形成一种降落伞效应。
那么,你认为坠落楼层越高、死亡率越低的原因是什么呢?答案在结尾揭晓。
我们现在说 90 后最爱算命的话题。

90后最爱算命?
腾讯 110 公布过一个「网络占卜」诈骗的举报数据:
在网络占卜类诈骗举报中,51.7% 的举报人是 90 后。

这个数据说明什么问题呢?
90 后最爱算命?
90 后最不信命?
90 后都是我命由我不由天?
别着急下结论,我们再看一个类似的数据,也是来自腾讯 110:
在金融信贷类诈骗举报中,52.9% 的举报人是 90 后。

这个数据又说明了什么问题呢?
90 后最爱提前消费?
90 后最爱投资理财?
90 后是拆东墙补西墙的搬砖高手?
其实上面两个数据都描述了一个相同的事实,就是图片标题写的:举报人年龄段分布占比。

因为腾讯 110统计的「举报人」是典型的幸存样本,不能代表那些没有去举报的人。
对于那些没有举报的人,他们的年龄特征我们其实一无所知。
所以上面的数据只能说明在举报的人当中,90后占比最多。除此之外,再无其他意义。
不过,腾讯 110 好像不是这么认为的。
网络占卜的文章里面写:这届年轻人怎么都开始相信“玄学先生”了?
金融信贷诈骗的文章,更是直接在标题里写着:90后被骗人数占比最高!
也就是说,腾讯 110 (至少是腾讯 110 的编辑),把举报人的占比,等同为实际参与的人群占比。
这是真的无知,还是故意误导呢?咱也不知道,咱也不敢问啊。
不过可以确定的是,类似腾讯 110 的这样幸存者偏差,其实还挺常见的。
被忽视的幸存者偏差
说起幸存者偏差,很多人都能对二战飞机的事例侃侃而谈,也能随口讲一个「没来的人请举手」或者「卖降落伞的店铺没有差评」的段子。
但在生活和工作中,幸存者偏差总是会被忽视。
举个例子。
每年中考、高考成绩出来后,「状元」总是受到广泛的关注。
学校敲锣打鼓,媒体密切报导,补习班说状元每个周末都来我们这上课,出版社的说状元用的参考书都是我们的,家长分享培养状元的经验,状元大方的公开作息安排,状元学习笔记的影印版也在微信群里传来传去。
可是,上同一所学校、同一家补习班的其他学生呢?
买了同样的参考书、有同样作息安排的其他学生呢?
状元的成功只是个例,并不能说明学校、补习班、参考书是也是成功的。
类似的,还有成功创业者的分析、长寿老人的长寿秘诀、家庭/婚姻幸福的秘密等等,也是严重的幸存者偏差。
只不过这些「幸存者的秘密」早已泛滥成灾,以至于我们也见怪不怪了。
再举个工作的例子。
以前我们公司新上线了一个项目。在上线一个月之后,产品经理对活跃用户进行了调研,并据此做出了下一步的调整方向和优化方案。

有问题吗?
有大问题。
用户调研是运营、产品、市场等等很多岗位的基本功,但是很多人在做用户调研的时候,往往是重视调研方法,而忽略用户样本选择。
比如上面的例子,一个新项目想要快速发展,更重要的是找到用户流失的原因,改正并提高用户留存。

而流失用户恰恰就是那些被击落的飞机,没有人替他们说话。
项目上线一个月之后才做调研,产品经理已经拿不到流失用户的数据。所以无论这次用户调研做得多么完美,也只能陷入到活跃用户的幸存者偏差之中。
说到用户调研,还有一个流传好多年的段子:记者在火车上问大家有没有买到票。
记者不会那么傻的,但很多人把这个段子当做幸存者偏差的案例,倒是真的在犯傻。
和上面的产品经理不同,记者只要在火车站做采访,就能获取到买票结果的随机样本。但是,段子里的记者选择了在火车上做采访,这导致调研样本出现了严重偏差,无法代表整体,结论自然是可笑的。
产品经理没得选,只有幸存者数据;记者有的选,但选择了错误的样本。
所以记者的段子是一个自选择偏差,而不是幸存者偏差。
如何避免幸存者偏差
对于如何避免幸存者偏差,《简单统计学》里面只说要做前瞻性研究,这几个字实在是太简单了,所以我稍稍补充一下。
为什么会出现幸存者偏差?因为只有「活着的人」在说话。
所以想要避免幸存者偏差,就要想办法让「死人」也说话。
怎么做呢?
■首先要有全面的、详细的数据记录。
在项目开始之前,就要梳理出流程中的关键环节,并且做好每个环节的数据记录工作,这样在对项目复盘、分析时,手里的数据才是全面的。
所以APP要做数据埋点,投广告要做数据监测,飞机也要装黑匣子。
■其次,拿到数据的时候,别着急分析,先反问下自己:
拿到的样本、数据是不是完整的?样本能否代表整体?有没有哪些数据没有统计到?
如果确定数据不完整,那么想办法补全数据才是首要工作。
■最后,别盲从、别轻信。
如果一个结论违背常识,那么一定要多想一想,是常识错了,还是结论错了。
如果你的常识没错,那么别人拿这个错误结论来吹牛的时候,你就可以啪啪打脸了。
比如开头的问题:为什么坠落楼层越高,猫的死亡率越低呢?
这个结论明显有悖常识,爬的越高,摔的越惨才对。
而这个结论的原因,就是幸存者偏差:有些猫掉下来之后,直接去往猫之天国了,根本没有被送往医院,自然也就没有被医院统计到。
最后,引用《简单统计学》里面一句话作为结尾:
我们没有看到的数据可能和我们看到的数据一样重要,甚至更加重要。
不要忽视幸存者偏差。