欢迎光临散文网 会员登陆 & 注册

《思考,快与慢》中文 第十七章:所有表现都会回归平均值

2021-04-16 23:37 作者:追寻花火の久妹Riku  | 我要投稿

《思考,快与慢》Thinking, Fast and Slow 原文 书籍翻译 第十七章

作者:[美]丹尼尔·卡尼曼

【以下内容为作者的正文】注:根据语意略有改动,但不影响原意。


第17章 所有表现都会回归平均值

 

我曾经为以色列空军的飞行教练们讲授过关于高效训练的心理学课程,那次经历为我带来了职业生涯中最引以为豪的发现。当时我告诉他们关于技能训练的一条重要原则:对良好表现的嘉奖比对错误的惩罚更有效。不管是对鸽子、老鼠、人类,还是其他什么动物的研究,都给这个说法提供了证据。

 

就在我结束了激情洋溢的演说之后,经验最为丰富的一位教练举手示意,发表了一番自己的意见。他先是承认奖励对鸟确实管用,但他认为这不是训练飞行学员的最佳选择。他说道:“在很多情况下,我会赞许那些完美的特技飞行动作。不过,下一次这些飞行员尝试同样飞行动作的时候,通常都会表现得差一些。相反,对那些没执行好动作的学员我会大声怒吼,但他们基本上都会在下一次表现得更好。所以说,别告诉我们嘉奖有用而惩罚没用,因为事实恰恰相反。”

 

这条统计学原则我已经讲授了很多年,而这一次我从一个新的角度重新认识了它,这的确是一个顿悟的时刻。那个飞行教练是正确的,但同时他也彻彻底底地错了。他的观察是精明且到位的:被他表扬之后,很多学员很有可能会表现得很糟糕;惩罚反而会促使他们进步。但是就他的推断而言,奖励和惩罚之间是毫无关系的。他所观察到的就是众所周知的“回归平均值”现象,这种现象与表现质量的随机波动相关。一般来说,只有学员的表现远远超出平均值时才能得到这位教练的表扬。但也许学员只是恰巧在那一次表现得很好,而后又变差,这与是否受到表扬毫无关系。同样,或许学员某一次非同寻常的糟糕表现招来了教练的怒吼,因此接下来的进步也和教练没什么关系。这个教练把不可避免的随机波动与因果解释联系起来了。

 

这个提议确实引起了反响,不过这些教练对概率预测的代数方法没什么兴趣。所以,我用粉笔在地上画了一个靶子。我请房间里的每一位教练都转过身去,背对着靶子向里面接连扔两枚硬币。接着我们分别测量了靶子到两枚硬币的距离,并写在黑板上。然后,我们又将这些数据按第一次投掷的距离远近排列。很明显,第一次投掷得比较好的人第二次大都做得不好,而第一次没有投掷好的人第二次大都有了进步。我告诉这些教练,他们在黑板上看到的数据其实和飞行员的表现是一致的:糟糕的表现常常会有提高,而好的表现则会变得糟糕,这跟表扬与惩罚都没有关系。

 

那天,我的发现是,那些飞行教练陷入了一个偶然性困局之中:因为当飞行学员表现差时,他们就会受到惩罚,而接下来的进步则很可能为他们带来嘉奖,事实上惩罚根本就没有发挥什么作用。而且,处于这种窘境之中的不仅仅是那些教练。我曾无意中发现了人类环境中一个意义重大的事实:生活给予我们的反馈常常违背常理。因为当别人取悦我们时,我们也会对他好;当别人对我们不好时,我们也会对他产生厌恶之情。然而从统计学角度来看,我们却是因为对人友好而受到惩罚,因为举止无礼而得到嘉奖。

 

才能和运气

 

几年前,编辑在线杂志《边缘》的约翰·布罗克曼(John Brockman)邀请许多科学家报告他们的“最爱方程式”。这些是我的产品:

成功 = 才能 + 运气很棒

成功 = 更多的才华 + 很大的运气

 

当我们将运气应用到高级别高尔夫比赛的前两天时,运气常常有助于成功的毫不奇怪的想法就会产生令人惊讶的后果。为简单起见,假设两天的竞争对手的平均得分都为标准杆72。我们专注于第一天表现非常出色的球员,以66分的成绩结束。分数?一个直接的推断是,高尔夫球手比一般的锦标赛选手更有才华。成功的公式表明,另一个推论同样是合理的:在第一天表现出色的高尔夫球手在那一天可能会获得比平均水平更好的运气。如果您接受才能和运气都有助于成功,那么成功的高尔夫球手是幸运的结论与他有才华的结论一样有说服力。

 

同样,如果您专注于一个在标准杆上得分超过5的球员

那天,您有理由推断他既虚弱又有糟糕的一天。当然,您知道这些推论都不是确定的。得分为77的球员实际上很有才华,但日子过得非常糟糕。尽管不确定,但根据第1天的分数得出的以下推论是合理的,并且比错误的结论更正确。

 

第1天的得分高于平均水平 = 高于平均水平的人才 + 第1天的幸运

第1天的成绩低于平均水平 = 低于平均水平的人才 + 第1天的运气不佳

 

现在,假设您知道高尔夫球手在第一天的得分,并被要求在第二天预测他的得分。您希望高尔夫球手在第二天保留相同水平的才华,因此您的最佳猜测将是“高于平均水平”。第一玩家,第二玩家“低于平均水平”。当然,运气是另一回事。由于您无法预测第二天(或任何一天)高尔夫球手的运气,因此,您最好的猜测必须是平均水平,无论好坏。这意味着在没有其他任何信息的情况下,您对球员在第2天得分的最佳猜测不应重复他们在第1天的表现。这是您最多可以说的:

·在第一天表现出色的高尔夫球手也可能在第二天也取得成功,但比第一天要成功,因为他可能不会在第一天获得不寻常的运气。

·在第一天表现不佳的高尔夫球手在第二天可能会低于平均水平,但会有所改善,因为他的运气可能不会持续。

 

我们也期望两位高尔夫球手之间的差异会在第二天缩小,尽管我们最好的猜测是第一位选手的表现仍然会好于第二位选手。

 

我的学生总是惊讶地听到,第二天的最佳预测表现比基于其的证据(第一天的得分)更适中,更接近平均水平。这就是为什么将模式称为均值回归的原因。原始分数越极端,我们期望有更多回归,因为极高的分数表示很幸运的一天。回归预测是合理的,但不能保证其准确性。如果第一天得分为66的高尔夫球手的运气有所改善,他们在第二天的表现会更好。大多数人的情况会变得更糟,因为他们的运气将不再高于平均水平。

 

现在让我们与时间箭头相反。按照第二天的表现来排列玩家,并观察第一天的表现。您会发现均值的回归模式完全相同。在第二天取得最佳成绩的高尔夫球手当天可能是幸运的,最好的猜测是他们没有那么幸运,并且在第一天的成绩很好。当您预测以后发生的较早事件时,您会观察到回归的事实。事件应该可以说服您回归没有因果关系。

 

回归效应无处不在,被误导的因果故事也可以用来解释它们。一个著名的例子是“ Sports Illustrated jinx”,即声称其照片出现在杂志封面上的运动员注定在下个赛季表现不佳。过度自信和满足高期望的压力通常被作为解释。但是有一个简单的方法来解释“混蛋”:要成为《体育画报》封面人物的运动员必须在上个赛季表现出色,这可能是在运气的推动下进行的,而运气则是善变的。

 

我碰巧观看了冬季奥运会男子跳台滑雪比赛,而我和阿莫斯(Amos)正在写一篇有关直觉预测的文章。每个运动员在比赛中都有两次跳跃,并将结果合并为最终比分。在运动员准备第二跳时,我很震惊地听到体育广播员的评论:“挪威的第一跳很棒;他会变得紧张,希望保护自己的领先优势,而且可能会变得更糟。”或“瑞典的第一跳糟糕,现在他知道自己没有什么可失去的,并且会放松下来,这应该有助于他做得更好。”这位评论员显然发现了均值的回归,并发明了一个因果的故事,没有任何证据。这个故事本身甚至是真实的。也许,如果我们在每次跳跃之前测量运动员的脉搏,我们可能会发现,在一次糟糕的第一次跳跃之后,他们确实更加放松。也许不是。要记住的一点是,从第一跳到第二跳的变化不需要因果关系的解释。这是数学上不可避免的结果,因为运气在第一跳的结果中起了作用。这不是一个非常令人满意的故事,我们都希望有因果关系,但这就是全部。

 

回归现象的意义不亚于发现万有引力

 

无论是没有察觉还是解读错误,这种回归现象对人类而言总是很陌生的,因此直到万有引力和微积分理论出现两百年后,这种现象才为人们所理解。而且,是19世纪英国最伟大的科学家之一经过艰苦卓绝的努力才探索出这一重要规律的。

 

弗朗西斯·高尔顿(Francis Galton)爵士是19世纪英国著名的学者,也是达尔文的表兄。他发现并命名了回归平均值的现象。1886年,他发表了《在遗传的身长中向中等身长的回归》,其中涉及对连续子代的种子大小的测量以及对子代株高和母本株高的比较。在对种子的研究中,他写下了如下的话:

 

实验结果看上去十分值得关注,在1877年2月9日的一次演讲中,我就先于皇家科学院将这些结果用做一次演讲的基本内容了。从这些实验可以看出,子代的高度和母本高度似乎并不相关,但似乎前者比后者更趋于平均。如果母本较高,那么子代就会变矮;如果母本较矮,则子代就会变高。实验显示,子代向平均值的回归与母本高矮的差异是成比例的。

 

皇家科学院是世界上最古老的独立研究机构,高尔顿很期待该机构中博学的院士们也会对他那“值得关注的实验观察”感到惊讶。但真正值得关注的是,他为之惊讶的统计规律不过是像我们呼吸的空气一样稀松平常。回归效应随处可见,但是我们却无法识别它们的真面目。高尔顿以子代高度的回归现象为起点,逐渐发现当两个测量值之间的关联不是那么完美时,此时也会出现这种回归。他借助了当时最杰出的几位统计学家的帮助,且历时多年才得出这一结论。

 

当按不同的标准衡量两个变量时—例如体重和钢琴技艺—如何测量这两个变量之间的回归是高尔顿要攻克的重大难题之一。要解决这一问题需要以人口作为参照标准。假设我们对某小学所有年级的100名儿童的体重和钢琴技艺进行测量,然后将两者按从高到低的顺序分别进行排列。比如说,简在钢琴技艺中排第三名,但按体重则排第27名,那么我们就可以说她弹钢琴的水平比她的体重排名靠前。我们来作些假设,这样就可以使这一现象更容易理解。

 

不管年龄几何,

·钢琴技艺高低仅仅取决于每周练习的时长。

·体重多少仅仅取决于冰激凌的摄入量。

·冰激凌摄入量和每周练习钢琴的时长并不相关。

 

现在通过排行(按统计学家的说法是“标准分”),我们可以得出更多的等式:

体重 = 年龄 + 冰激凌消耗量

钢琴技艺 = 年龄 + 每周练习时长

 

你会发现,当我们通过体重预测钢琴技艺或通过钢琴技艺预测体重时,就会出现回归平均值的现象。如果知道汤姆在体重中排第12位(远高于平均值),我们就可以(从统计学上)推测他比平均年龄要大,而且可能比其他孩子吃更多的冰激凌。如果知道芭芭拉的钢琴技艺排第85位(远低于平均值),我们就可以推测她应当比大多数孩子年龄小,而且每周练习的时间也少。

 

两个值之间的“相关系数”指的是两个值共有因素的相对比重。这个值在零和1之间浮动。我们拥有父母各一半的基因,对于像身高这种受环境因素影响很小的特征来讲,父母和子女的相关系数在0.5左右。下面的例子能帮助我们更好地了解相关系数:

·一个物体的型号用英制单位精确测量的结果与用公制单位精确测量的结果之间的相关系数为1。任何影响其中一个值的因素都会影响另一个。两者享有同样的决定性因素。

·美国成年男性自报的身高和体重之间的相关系数为0.41。如果将女性和儿童也包括进去,那么相关度就会更高,因为性别和年龄都会影响身高和体重,这便使得共有因素所占比例增加。

·学术能力评估考试成绩(SAT,类似美国高考)和平均绩点(GPA)之间的相关系数大约是0.6。然而,研究生的潜能测试与成功之间的相关性则小得多,这在很大程度上是因为这一群体的潜能差异比较小。如果每个人都有相似的潜能,那么在衡量成功时,潜能的因素就不会占太大的比重。

·美国人收入和教育程度的相关系数约为0.4。

·家庭收入和他们电话号码后4位之间的相关系数为零。

 

弗朗西斯·高尔顿用了好几年的时间才确定相关性和回归性并非两个概念—它们只是从不同视角对同一个概念作出的阐释。这个概念的原则很简单,但是影响却很深远:只要两个数值之间的相关度不高,就会出现回归平均值的情况。为了阐释高尔顿的卓见,我们来看一个例子,很多人都认为这个例子很有趣:

聪明的女人常常会嫁给不如她们聪明的男人。

 

如果你在朋友聚会时挑起这个话题,一定会引起热烈讨论,大家肯定都愿意分享自己的看法。即使有些对统计学有所了解的人也会很自然地用因果关系去解释这个现象。一些人认为高智商的女人为了避免和同样高智商的男人竞争才这么做;或者是在择偶之时不得不妥协,因为同等智商的男人不愿意与这些女人竞争……也许还会有其他更牵强的解释。现在我们来看看下面的表述:

夫妻二人智商之间的相关性并不是绝对的。

 

这个观点显然是正确的,而且很无聊。谁会期待这样一种相关性是绝对的呢?那就没有什么好解释的了。不过,你认为有趣的观点和你认为毫无意义的观点又是等值的。如果夫妻二人智商之间的相关性并不是绝对的(如果男人和女人在平均智商上没有差异),那么从数学上来讲,高智商女人嫁给那些不如她们智商高的男人是顺理成章的(反之也成立)。对于这一现象,用回归平均值效应来解释要比用并不绝对的相关性来解释更通俗,也更有说服力。

 

你也许很同情高尔顿这样绞尽脑汁地解释回归的概念。统计学家戴维·弗里德曼(David freedman)曾说过,如果把回归的概念用在民事或刑事审判中,那么试图对陪审团解释“回归”的一方一定会输掉官司。为什么会这样呢?其中主要的原因也是本书中反复出现的主题:我们的思维常会对因果关系的解释带有很强的偏见,而且不善于处理统计数据。当我们把注意力集中在某一事件上时,相关的记忆就开始探寻其原因—更确切地说,我们会对所有早已存在于记忆中的原因进行自动搜索。当发现有回归效应时,因果关系解释就会被激活,但事实上这些解释都是不对的,因为回归平均值虽然可以用来解释现象,却无法找出其中原因。在高尔夫锦标赛中,那些第一天成功的选手通常在第二天发挥都很糟糕,而这场比赛总会吸引我们的注意力。对于这种现象最好的解释就是,那些选手第一天出奇地走运,不过这种解释缺乏我们的大脑所认可的因果关系因素。事实上,那些能够为回归效应提供巧妙解释的人往往赚得盆满钵满。如果一个商业评论员声称“今年的生意比去年要好,因为去年太糟了”,尽管他说得没错,但也很有可能很快就被电台噤声。

 

我们理解“回归”概念存在很多困难,这些困难皆源自两个系统—系统1和系统2。在相当数量的案例中,即便提供了一些统计数据,若无特殊说明,“相关”与“回归”的关系还是相当模糊的。因此,系统2认为理解这种关系很难。因为从某种程度上讲,这是由于我们总是要求对事物进行因果关系解释,这也是系统1的一个特征。

 

抑郁儿童喝了某种功能饮料,他们的情况在3个月内得到很大改善。

 

这个新闻标题是我杜撰的,但这则新闻所报道的内容却是真实的:如果给一群抑郁儿童喝了某种功能饮料的话,一段时间后,他们的病情会有很大的好转。如果抑郁儿童每天都花一段时间倒立,或是把一只猫抱在怀里20分钟,这些举动也可以使病情好转。多数读者读了这则新闻之后会不由自主地认为:喝功能饮料和抱猫的行为的确使抑郁儿童的病情得到了改善,但这个结论却无法得到证实。抑郁儿童是一个极端群体,他们比大多数其他儿童要压抑得多—这些极端群体在一段时间之后会回归平均水平。一连串的测试反映出来的不同压抑程度之间并无绝对的相关性,因此回归平均值(或者更确切地说是回归平均水平)这种现象又会出现:即使他们不抱猫,也不喝功能饮料,一段时间之后这些抑郁儿童的病情同样会有所缓解。为了证明喝功能饮料或是其他治疗方法是有效的,我们必须要对两组患病儿童进行比较—实验组接受了治疗(比如喝过功能饮料),对照组没接受过治疗(或只是服用过安慰剂)。我们期望的是对照组仅通过回归就能改善病情,而该实验的目的在于判定接受治疗的病人是否恢复得更快。

 

对回归效应作出错误因果解释的不仅仅是大众读者。统计学家霍华德·维纳曾经列出一长串杰出研究者的名字,他们也犯过同样的错误—将相关性和因果性混淆在一起。回归平均值是科学研究中的常见问题,有经验的科学家都会小心提防这种毫无缘由的因果推论所形成的陷阱。

 

在我最喜欢的那些关于直觉产生预测错误的例子中,有一个是根据马克斯·巴泽曼(Max Bazerman)的《管理决策中的判断》(Judgment in Managerial Decision Making)一书中的内容改编而来的:

假设你为一家连锁百货公司作销售预测。所有连锁店的规模和商品种类都非常相似,但是其地理位置、竞争状况以及其他随机因素使这些商品的销量有所不同。下列数据为2011年的营业额,请你对2012年的营业额进行预测。你已经知道自己可以接受经济学家所作的总体预测—销售额总体会增长10%。那么你将如何完成下列表格?

完成表格

读过本章,你就知道将每家店的销售额增加10%显然是不对的。你应当使自己的预测具有回归性:对于业绩不好的店,预测增长率应高于10%;对于业绩较好的店,预测值应低于这个值(甚至是负值)。不过如果你咨询其他人的话,很有可能会碰钉子:这么显而易见的问题还有什么好问的?正如高尔顿历经艰难才发现的那样,回归的概念从来就不是显而易见的。

 

示例回归平均值

“她说经验教会她一个道理,批评比赞扬更有用。不过她不明白这是回归平均值在发挥效用。”

“也许由于惧怕让众人失望,所以他的第二次面试没有第一次那样令人印象深刻,他第一次的表现太优秀了。”

“我们的筛选过程并不是很完美,所以我们会考虑回归性。有些极其优秀的候选人也会让我们失望,对此我们并不感到惊讶。”


第十七章 完

《思考,快与慢》中文 第十七章:所有表现都会回归平均值的评论 (共 条)

分享到微博请遵守国家法律