【跨学科工具箱】概率思维—把握不确定性(学习笔记)


简介
为什么要学
不确定性是世界的常态,概率论就是量化不确定性的工具;未来是不确定的,只要涉及到选择,涉及到决策,就一定会用到概率思维
很多牵扯到概率的问题是非常反直觉的,必须依靠概率工具;而现在这个日新月异的社会,概率思维显得更为重要
要想了解当今的前沿科技,不管是大数据、人工智能,还是生物医药、基因编辑,都绕不开概率论
【贝叶斯公式】科学抉择,把握不确定性。
【基础概率】选择大于努力。
【概率分布】上帝都有哪些 “筛子”?
【数字特征】
资料
林超 跨学科工具箱
刘嘉 概率论22讲
吴军 数学之美
遇见数学 公众号
相关教材
贝叶斯公式
是什么
Bayes公式的直观解释就是,当你获得了一个新的信息后(似然度),你对原事件概率(先验概率,基础概率)估计的变化(后验概率)。
定义:

定义2

也就是带入【全概率公式】,用于计算P(B)了
完备事件组:两两互斥,和为全集
数学上怎么用
求的有一个新信息后对原事件概率认识的变化
已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。
启发:既要很冷静的看待事物的基础概率,不要被表面现象迷惑,同时要在新证据,新信息不断积累的时候,及时调整对全局的评估。
案例
【患病概率】
【吃禁药概率】
【女孩对我笑案例】
案例:患病概率
亨廷顿舞蹈症患病概率:所长的案例样本空间没说清楚,这里结合结论反推完善了下题目,应该没啥问题。
已知 亨廷顿舞蹈症大概每一万人中大概有1人患病(基础概率),医生对这种病的识别率(真有病测出有病的概率)有99%,也有1%误诊率(没病被测出有病的概率)。
问题:当医生说张三有得了此病,那么此时张三得病的概率是多少?
古典概型,拿10000个人来思考

真正的样本空间是由 测得有病的病人 和 测得有病的正常人组成,所以答案是 10/(10+999)≈1%
算法2 概率公式解法
设P(A)是人口得病的概率(基础概率),为0.01%,P(B)是医生诊断出有病的概率
P(A|B)就是测得有病时,真有病的概率。P(B|A)是真有病时候,测得有病的概率,为99%,P(B|Ac)就是没病却测得有病的概率(误诊率1%),为1%。
要求的是P(A|B),由概率公式可以得到:
P(A|B)=P(B|A)P(A)/P(B)=0.95*0.01/P(B),
由全概率公式可以得到P(B)=P(B|A)P(A)+P(B|Ac)P(Ac),
代入可得:0.99*0.0001/(0.99*0.0001+0.01*0.9999)≈0.01。
常见误区:得出答案是99%的是因为忽略了基础概率,且弄错了问题的样本空间:99%样本空间是所有人,而问题的条件概率样本空间已经缩小至测的有病的人。
启发:
人的直觉倾向于既然医生都说了99%有病,那么基本就能确定有病才对,而忽略了真实得病率是0.01%,医生那1%的误诊率也是很重要的,看起来很少但比起真实得病率,差别之大,足以颠覆直觉。
小概率事件错觉:生活中如果遇到要在很小概率的事情上做推断的时候,一定要关注推断的错误率,即使是只有1%,如果真实世界这件事情发生的概率远小于1,足以把错误的绝对数字变得非常大。
检察官谬误:这不是说医生考专业知识的判断根本没有用,即使一次做出了诊断,也不能当做绝对的证据,需要结合多方证据,多检查几次才能确定,而医生99%的诊断率仍然是快速提升新证据确定性的最重要参数。
扩展:这一类问题叫作检察官谬误
案例:吃禁药概率
违禁品检测案例:跟上面的案例是一类案例,但因为很重要,多举几个例子
已知:违禁品被使用的基础概率是0.001,使用违禁品的情况下测出阳性的概率是0.95,清白的人也有0.1的概率被查出阳性。
问题:如果被测出阳性后,那么使用违禁品的概率会变成多少?多次测出阳性呢?
求解 概率公式解法:

用条件概率公式,第一次检查阳性的真实使用禁药的概率是0.009,再检查两次都是阳性,真实使用概率是0.45
启发
首先是多次重复对概率的提升,所以要收集多个证据,多方验证或多次测验,才能保证结论的准确性。
其次是【基础概率】(先验概率)很小的情况 即使三次都不到50%,关键的不是误判率有多小,而是【基础概率】和误判率的比值,如果基础概率比误判率还要低几个量级,结果依然不可信,所以【基础概率】往往是决定性的。
资料:简书王阿根(所长案例的原始出处)https://www.jianshu.com/p/0e44aade0e60
女孩对我笑案例
看到小芳对我笑,是因为喜欢我的概率

应用
当看到很罕见的事情连续发生了两次,不要马上做判断,先思考下面两点
这个事情被误判的概率有多大
这件事情在真实世界会发生的基础概率有多小
即使误判率是只有1%,如果真实世界这件事情发生的概率远小于1,那误差也会非常大
练习
比如太阳从西边升起概率几乎等于零,一个人如果三次看到太阳从西边生起,那么即使我不去看,太阳真实从西边升起点概率也不大,大概率这个人应该去看医生(因为基础概率太小了)
但如果我也看到了太阳从西边生起,我会开始怀疑,第二天也是我该开始惊慌,问朋友证实后,第三天终于相信了(多次验证后验概率的提升)
基础概率
为什么很重要:根据前面的贝叶斯公式案例,可以得出一个结论:基础概率决定成败
是什么:【基础概率】(先验概率) 是指根据以往经验和分析得到的概率, 如概率公式中,它往往作为"由因求果"问题中的"因"出现的概率。
怎么做【应用】:我们不需要知道每个事情的基础概率具体是多少,只需要有个量级的判断力就行,一个量级可以理解为差十倍,结合【十倍压制原理】,可以有很多的重要应用
比如公司竞争中,公司规模如果差一个量级,就没什么争的了(大概率)
个人竞争中,比如考试排名,一个排年级第五,一个排年级第五十,也没什么争的了(大概率)
比如大学男女比例是1:10和是10:1,两种环境能不能找到女朋友(男朋友),不是努力能抵消的,这就是基础概率。很多时候我们不是努力不够,而是所在的土壤太贫瘠。
这个原理通用适用于选城市,选学校,选行业,选公司。
应用
【基础概率】结合【量级压制原理】可以帮助判断和解释很多问题,比如
为什么我班级第十名,却怎么努力也追不上班级第一名?别看只是超过9个人就行了,其实这是一个量级的压制,而不是能简单靠努力能达到的;并且放眼整个年级,可能就是差几百人了,放眼整个市,就是差几万人了,所也就是说这时候用"加减法"是解释不了的,需要用量级思维来分析。
再比如常常看到有报道举例 “为什么中国出了那么多高考状元,却没有诺贝尔奖得主?” 我们都知道高考状元很难得,诺贝尔奖也很难得,但这个“难度”是一样的吗?而真正考究一下,高考状元(省)概率大概是万分之一量级的,而诺奖得主概率大概是亿分之一量级的。此类“证据”常来批判中国的应试教育,不论结论对错,但证据却有失偏颇。这也说明了人们对跟大或跟小的量级其实并不敏感
所以应该多去搜集这样量级相关的数据,锻炼对量级的判断力。
比如在人与人之间,量级数据的搜集有一个非常好的来源,就是高考,样本量非常大。以下为早年做的一个表,里面体现了十个量级差别,帮助建立量级的感觉。

所以为什么要多关注宏观层面的东西,比如行业大趋势呀,国家大战略呀,因为这些东西都是和【基础概率】息息相关的
这方面要多看【所长林超】的视频,比如最新的2035年远景规划相关视频
均值与异常值
异常值:跟平均值偏差大于两倍标准差的数据
为什么 人们更习惯以均值思考,比如平均身高,平均体重都很有意义。但平均财富就没有意义了。当今整个世界变动基础概论提高了,所以需要格外关注异常值。
比如一个公司平均有8%的月均收益率,似乎很不错,但因为某个月亏损非常严重,突然倒闭了,就是因为这个异常值,而用平均值思维理解就会很困惑。
怎么做:如何处理异常值?
舍弃掉
假设世界是不稳定的,每一次异常值都可能预示着一次大变化的开端 ,也就是见微知著
比如国家叫停支付宝上市,实际上预示着一次大变局。
一视同仁
单独研究
背后的假设是世界是连续的稳定的,最主流的观点就是最正确的
比如去掉一个最高分,去掉一个最低分。

大数定律
大数定律:不确定中的确定性
是什么:如果统计数据足够大,那么事物出现的概率就无限接近他的期望值。
启发:在小数据时代,大道理可能毫无参考价值,比如早睡早起有益身体健康,多运动之类那些能够流传数百上千年的大道理大道理,其实都是经过无数次的抛硬币,最后沉淀下来的统计学经验,随着年龄增加,阅历增加,接触的样本不断变多,会觉得他们越来越有道理。而人类很难抗拒,抛几次硬币就开始总结经验,应该保持耐心,多去尝试总结经验这也是反思和复盘的重要性,从贝叶斯公式总结的话就是不断获取新的信息更新先验概率,让结果更准确。
注意:大数定律不需要通过补偿实现。比如看到一个硬币三次都是正面,那么第四次为正面的概率还是50%。
疑惑与解答:那条件概率公式失效了吗?应该因为这三次的信息让后验概率发生改变吧,但是如果收集的信息越多好,那么假如有一个超级观察者,他看这个硬币已经投掷来了100万次,那么概率肯定趋于50%的。

相关【小数定律】:小数定律是说,如果统计数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟它的期望值一点关系都没有。
概率分布
是什么:随机变量中的“随机”来自事件发生的概率。分布(distribution)是描述随机变量所对应的所有 事件的发生概率的情况,一般指直接指分布函数(分布率)。研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!、
常用概率分布包括:【幂律分布】【正太分布】【泊松分布】
幂律分布
详见函数思维中的【指数效应】
是什么:马太效应,二八法则,长尾理论,赢家通吃,【指数效应】
但生活中而已有很多的事件符合幂律分布,比如收入、股市波动、网站访问量、照片点击量、公众号文章的阅读量……
启发:在某个细分领域做到绝对的好,比如钻研小众领域
例子
现在很多人都在运营微信公众号。但排名前20%的公众号可能占了80%的点击量,而排名后80%的公众号只占20%的点击量。这个多数人“泯然众人”,少数人“牛到不行”的不均衡分布。
扩展:所长的 《六大新生存法则》和《疫情之后的新世界》

正态分布
是什么: 我们生活中有很多分布都属于正态分布:平均的占主要部分,极好的和极差的占少数,而且和平均值差别不会特别大,比如身高的分布、智商的分布等等

一般的,若影响某一数量指标的随机因素很多,而每个因素所起的作用均不太大,则这个指标近似的服从正态分布,这就是概率论中的【中心极限定理】比较直观的描述。

泊松分布
最近频发大暴雨,而泊松分布就是其数学模型。为什么”百年难得一见“”前年难度一见“的暴雨频发?
是什么:实际意义,特定的时间特定的场合,源源不断的质点来流。(比如:每天某个地方在某个时间的人流数量)
其实泊松分布是正态分布的一种微观视角,是正态分布的另一种面具。

应用:传统上来说,泊松分布给出了在固定时间段给定次数时间发生的可能性,假定时间发生的时间独立于上次事件发生的时间,同时事件发生率是已知的。因为用于导出分布的技术的原因,在模拟事件发生的概率恒定不变但很小,即随机变量元素特征是“稀少事件”发生的个数(比如,每年骑兵由于被马踢中而致死的人数)的大量独立事件中,泊松分布极为有用。

方差

启发:【坚定聪明模型】努力做一个聪明而坚定的人, 还要多扩展眼界,当圆心变了的时候即使做出调整。