噪声标注

统计思维。关于炒股,关于人工智能好像能获得一些灵感。
标注


关于判断中不必要的变异性,一个常见的误区是认为它无关紧要,因为通常来说,随机错误是可以相互抵消的。当然,在关于同一案件的判断中,正负误差会趋于相互抵消,我们将详细讨论如何利用这一特性来减少噪声。但存在噪声的系统并非对同一案例做出了多次判断,而是对不同的案例做出了有“噪声”的判断。如果保险公司对一份保单的理赔金额估价过高,而对另一份保单估价过低,从平均值而言,两次 估价看起来可能是适当的,但实际上保险公司却犯下了两次代价高昂的错误。如果两名罪犯都应该被判处5年有期徒刑,却分别被判处了3年和7年有期徒刑,那么尽管平均值是5年,但事实上正义并没有得到伸张。因此可以看出,在充满噪声的系统中,错误不会相互抵消,只会累加。
噪声就像地下室漏水,它之所以能被容忍,不是因为人们认为它是可接受的,而是因为它一直未被发现
重复决策中的噪声可以通过噪声审查识别出来。单一决策与重复决策是有区别的。
如果单一决策与重复决策一样存在噪声,那么用于减少重复决策中噪声的策略应该也可以用于提高单一决策的品质。
无论只做一次决策还是做一百次决策,你的目标都应该是减少偏差和噪声,而且减少错误的实践方法在单一决策和重复决策中同样有效。
能否验证并不会改变你的判断经验。在一定程度上,当一个问题的答案很快就被揭晓时,你可能会更加积极地思考,因为害怕出错,所以你的注意力更加集中。相反,你可能会拒绝对一个荒谬的假设性问题做太多思考,比如,如果甘巴迪有三条腿、能飞,他会是一个更好的CEO吗?总体而言,你会用解决现实问题的方式去解决一个假设性问题。这种相似性对心理学研究很重要,因为很多研究使用的都是这种假设性问题。
内部信号的本质特征在于:一致感是判断经验的一部分。它并不完全取决于真正的结果。因此,内部信号对于不可验证的判断与对于真实的、可验证的判断一样可用。这样就可以解释,为什么我们对于像甘巴迪这样的虚假人物做出判断的经验,就像是在真实世界中做判断。
测量和减少噪声应该与测量和减少 偏差同等重要。
偏差是强调数据与标准值的差。
噪声是强调数据本身的方差。
单次测量的误差=偏差+噪声误差
均方误差=偏差平方+噪声平方
水平噪声:法官们各有特点。有的人是“铁面判官”,他们比一般法官更严厉;有的人是“柔情法官”,他们比一般法官更仁慈。我们将这些差异称为“水平误差”( level errors).(再次提醒:这里的误差是指判决结果与平均值之间的差异;如果判决结果的平均值是错的,一个误差可能反倒纠正了这种不公正。)
模式噪声:在有些案件上,他们比自己量刑的平均水平严格;但在其他案件上,他们则表现得要宽容。我们将这种残存的变异称为“模式误差”.如果你在表格的每一个单元格中写下这些模式误差,就会发现:对于每一位法官(行)而言,这些模式误差之和为0;对每一起案件(列)而言,它们的和也是0。但模式误差对噪声的影响不能相互抵消,因为在计算噪声时,使用的是每个单元格中数值的平方。
总结
水平噪声是指不同法官做出的判决与平均值之间的变异。
模式噪声是指法官对特定案件做出的反应的变异。
模式噪声偏差一般比水平噪声大,是其4倍。
在本研究中,水平噪声和模式噪声的数量几乎相等。然而,模式噪声中肯定会包含一些情境噪声,后者可以被看作随机误差。
系统噪声平方=水平噪声平方+模式噪声平方
出现这种情况的原因是一个基本的统计事实:对多个独立判断或测量进行平均会产生一个新的判断,虽然这一判断不一定会比个体判断产生更少的偏差,但它会产生更少的噪声。
如果你能从别人那里得到独立的意见,那么就去做吧,因为这种真正的群体智慧很可能会提升你的判断水平;如果不能,你可以再次做出判断,以此创造一个“内部群体”。针对后者,你可以采用两种方式:要么隔一段时间再做出第二次判断,要么质疑自己的第一次判断,从另一个角度来看待问题。此外,不管是哪一种类型的“群体”,除非你有充足的证据表明需要对其中一次评估赋予更高的权重,否则对两次判断进行平均后的判断就是最佳判断。
你的第一个答案并不是根据你的全部知识甚至那些关键的知识得出的,你给出的答案只是你头脑中可能产生的一系列答案中的一个。我们从同一个人对同一个问题的判断中观察到的变异性,并不是一些高度专业的问题中存在的偶然现象,事实上,情境噪声无时无刻不在影响着我们的判断。
群体噪声:微小的差别可能导致一个群体鉴定地说是,而本质上相同的另一个群体却坚定的说否。
小群体易受微小差别的影响。假设有一个包含10名成员的小群体,他们要决定是否采用某项大胆的新举措。如果一两个支持者先发言,他们很容易使整个团队转向他们偏好的方向。如果最先发言的是持怀疑态度的人,情况也是如此,至少当人们能够互相影响时是如此。事实上,群体中的成员常常会互相影响,因此,仅仅是因为先发言的人不同,或者一开始下载某首歌的人更多,类似的群体会做出非常不同的判断。简称为少数先行者的随机差异
信息级联会导致噪声出现在多个群体之间,有时出现的可能性甚至非常大。
个体的独立判断进行减少了噪声。
简单的机械性规则普遍优于人类的判断。
人类在许多方面都不如统计模型,其中一个主要弱点在于人类的判断过程存在噪声。
判断模型的表现一如既往的胜过判断者本人。对自己判断品质的满意度只是一种错觉,即效度错觉。
我们不知道这些研究中的参与者是否收到了有关个人表现的反馈,但是,如果有人告诉你,对你的判断进行粗略建模后的模型实际上比你本人预测得更准确(这极具讽刺性),想必你会感到非常沮丧。对于大多数人来说,判断活动是复杂、丰富且有趣的,这也恰恰是因为它不符合简单规则。当我们发明并应用一些复杂规则来做判断或对某些案例有了不同于其他案例的见解时,即当我们做出了无法用简单的加权求和模型去简化的判断时,我们会自我感觉更加良好,对自己的判断能力更加信心十足。但关于判断模型的研究进一步证实了梅尔的结论——很多细节都是无用的,复杂性和丰富性并不会使预测更准确。
如果你的复杂规则行之有效,那么简单模型会因为不能重复你的规则而导致自身的预测力下降。例如,假设你必须从一个人的技能和动机两个方面来预测他成功完成一项困难任务的可能性,那么加权平均并非好方法,因为动机再强,也无法弥补能力的不足,反之亦然,如果你使用复杂的预测规则,那么你的预测准确性将比无法获取复杂规则的简单模型更高。但复杂规则通常只会给你带来效度错觉,这实际上会降低你的判断品质。也就是说,少数复杂规则是有效的,但大多数是无效的。此外,你的简单模型并不会表征你在判断中的噪声,它不能重现你在特定案例中由于随机反应而产生的正误差或负误差。同理,你在做出特定判断时会受到当时的环境和心理状态的影响,而模型并不会。这些判断的噪声带来的误差很可能与任何事物都不相关,这意味着在大多数情况下,我们可以将其视为随机误差。
用机器减少噪声可以提高预测判断的有效性。你可能会认为自己比一般人更擅长思考,更有洞察力,但实际上只是你的噪声更多而已。
均等权重模型具有稳定之美。
将两个或多个相关预测因素组合后,预测效果相比于单个预测因素并不会好多少。
人们对自己能够容错,对算法确不能容错。如果机器不完美,那就丢弃它。
由于存在这种直觉性的期望,人们仍可能不信任算法,而继续相信自己的判断力,即使自己的判断明显不尽如人意。这种态度是根深蒂固的,除非算法能够达到近乎完美的预测准确性,否则这是不可能改变的。
然而,对判断所持有的信心并不能保证判断的准确性,许多充满信心的预测都是错的。尽管偏差和噪声都会造成预测误差,但此类误差最重要的来源并非受限于预测性判断实际有多好,而是受限于预测性判断应该有多好。我们将这一局限性称为“客观无知”
长期的预测毫无用处。
模型确实比人表现得更好,但并没有好很多。
我们强烈反对这个词的另一种用法—一—将代价高昂的失败归因于无特定所指的“偏差”,而在承认错误的同时,承诺努力消除我们的决策中的偏差。这些表述无非是说“错误已经铸成”“我们将努力做得更好”,再没有其他意义了。可以肯定的是,某些失败确实是由与特定心理偏差相关的可预见性误差引起的,我们也相信采取某些干预措施来减少判断和决策中的偏差和噪声是可行的,但是,将所有不好的结果都归咎于偏差,是毫无价值的解释。我们建议,只有在描述具体、可以识别的误差以及产生这些误差的机制时,才使用“偏差”一词。
我们需要具体分析偏差产生的原因,而不是笼统的用这个词语
启发式和偏差计划的核心思想:回答一个难题的启发式是去寻找一个简单问题的答案。用一个问题代替另一个问题会导致源于可预见性心理假设的误差,我们称之为心理偏差。
到目前为止,我们简要地介绍了三种偏差,它们的运作方式是不同的:替代偏差会导致我们对证据不正确地赋权;结论偏差会导致我们要么绕开证据,要么以曲解的方式考虑它;而过度一致性偏差则会放大初始印象的效果并减少矛盾信息的影响。当然,以上三种类型的偏差都会产生统计偏差,也都会产生噪声。
我们给他人传递信息时,故意添加噪声,就可以迷惑他人。
有三件事至关重要。如果做判断的人受过良好的训练、更睿智且拥有正确的认知风格,那么他的判断也会产生更少的噪声和偏差。换言之,好的判断取决于你的经验、思维能力,以及你的思考方式。好的判断者往往经验丰富且充满智慧,但他们也时刻保持着思维的开放性,愿意接纳新的信息。
擅长预测可验证的某个领域的人,被称为某个领域专家。
我们已经指出,有一些判断的效果是无法验证的。在一定范围内,我们不能轻易得知或毫无争议地确定一些判断的真正价值,保险核保、刑事判决当属此类。此外,品酒、文章评分、书评和影评,以及其他数不胜数的判断也属此类。虽然这些领域的一些专业人士也被称为专家,但我们对这些专家所做判断的信心建立在同行对他的尊重的基础上。我们将这类专家称为“尊重型专家”。尊重型专家这一称谓本身并无冒犯之意,事实上,指出这些专家的判断的价值无法被准确评估这一点也并非一种批评,因为在很多领域中,情况本就如此。很多教授、学者和管理顾问也是尊重型专家。他们的可信度取决于学生、同行或客户对他们的尊重程度。在这些领域,乃至更多领域中,某位专家的判断只能与他们同行的判断进行比较。
如果你必须挑选一些人来判断,那么你最优选择那些高智商的人。
事前或预防性地消除偏差的干预措施又可以分为两大类。在最有前景的方法中,一些方法旨在改变做判断或决策的环境。这种改变也被称为助推,众所周知,它们的作用是减少偏差的影响,甚至利用偏差做出一个更好的决策。
决策观察者不好当,并且毫无疑问,在一些组织中,安排决策观察者也是不现实的。如果最高决策者没有下定决心去纠正偏差,那么仅仅发现偏差并没有用。确实,决策者必须是发起决策观察并支持决策观察者的人。我们当然不建议你自己任命自己为决策观察者,这样你既不会赢得朋友,也不能影响他人。
我们称这种减少噪声的方法为决策卫生。当你洗手的时候,你可能不知道自己到底在预防哪种细菌感染,你只知道洗手是预防各种细菌感染的好方法(不仅在疫情期间如此,平时也应该这样做)。同样,遵循决策卫生的原则意味着:即使你不知道想要规避什么样的错误,你也应该采用减少噪声的策略。
必要的方法论步骤是简单明了的。它们阐明了一个适用于许多领域的决策卫生策略:通过对信息进行排序来限制过早地使用直觉。在所有判断中,有些信息是相关的,有些则不是,而且信息并非总是越多越好,在信息有可能诱导鉴定人员过早地根据直觉下判断并导致判断产生偏差时尤其如此。
本着这一精神,为确保鉴定人员判断的独立性,司法实验室采用的新程序只有在鉴定人员需要时,才会向他们提供所需的信息。换言之,实验室会逐步透露信息,尽可能地让他们“蒙在鼓里”。因此,德鲁尔及其同事设计的方法被称为“线性序列揭露”
简而言之,超级预测者的与众不同之处不在于他们智力过人,而在于他们明白如何运用智慧。他们运用智慧的技能反映了我们在第18章中描述的那种可能产生更好判断的认知风格,尤其是高水平的“积极开放性思维”。回想一下关于积极开放性思维的测试:它包括“人们应该考虑与他们的看法相悖的证据”和“关注与你意见不同的人比关注那些与你意见一致的人更有用”。显然,在这项测试中得分很高的人在新的信息出现时会大大方方地更新自己的判断,而不会反应过度。
如泰特洛克所说:“超级预测者之所以如此优秀,不在于他们是谁,而在于他们做了什么—一艰苦的研究工作,仔细的思考和自我批判对其他观点的收集和汇总,细微的判断和不懈的更新。”他们喜欢一个特殊的思维循环:尝试,失败,分析,调整,再试一次。
“超级预测者”的成功主要归功于他们在控制测量误差方面的出色能力,而不是其他人无法复制的对新闻的透彻解读。
无论多样性如何,只有在判断真正彼此独立的情况下,对判断进行汇总才能减少噪声
各种手册的出现,意在减少噪声。
关于减少或消除噪声的反对意见主要表现在以下7个方面:
第一,减少噪声的代价很大,不值得。减少噪声的必要步骤可能非常烦琐,在某些情况下,甚至无法实现。
第二,为减少噪声而采用的某些策略可能会给系统本身引入新的错误,有时甚至会造成系统性偏差。如果政府部门的所有预测者都过分乐观,那么他们的预测结果或许就不只是有噪声这么简单了,有可能根本就是错的。如果医院里的所有医生针对每一种疾病开的药都是阿司匹林,那问题就不再是噪声而是大量误诊了。
第三,如果希望让人们觉得自己受到尊重和有尊严,我们就必须容许一些噪声的存在。噪声可能是人们最终乐于接受的不完美过程的副产品,因为这个过程会让每个人(员工、顾客、求职者、学生、嫌犯等)有机会表达自己的观点,有机会影响“法官”行使自由裁量权,让每个人都有可能感受到被他人关注和倾听。
第四,噪声可能是容纳新的价值观乃至促进道德和政治的发展至关重要的事物。如果我们消除了噪声,当道德和政治承诺朝着新的、意想不到的方向发展时,我们做出回应的能力可能被削弱。无噪声的系统可能会导致价值观僵化。
第五,一些力图减少噪声的策略可能会促成投机取巧的行为,导致人们利用制度的漏洞,或规避禁令。容许一些噪声甚至很多噪声的存在,可能是防止恶行所必需的。
第六,存在噪声的系统可能有很好的威慑作用。如果人们知道自己受到的惩罚可能很严重也可能很轻微,那么他们有可能会尽量避免犯错,至少对于风险规避型的人来说是如此。所以说,系统应该保留一些噪声,让它们成为一种能产生额外威慑力的方式。
第七,人们不希望自己被当成一件物品或机器上的一个小齿轮。某些减少噪声的策略可能会限制人们的创造力,并影响团队士气。

规则旨在消除实施者的自由裁量权,而标准则会授予实施者一定的自由裁量权。
决策卫生的6项原则
1判断的目的在于准确性,而不在于个性化表达。
2使用统计思维,采用外部视角审视个案。
3对判断进行结构化,将其分解为几个独立的任务。
4抵制不成熟的直觉。不必禁用直觉,但直觉应该建立在一定的信息基础之上。
5获取多为判断者的独立判断,再考虑汇总这些判断。
6用相对判断和相对量表会更好。