概率统计:平均几次能抽到塔菲表情包?

首先明确该问题是几何概型的一种(http://www.zhihu.com/question/26395948),也就是说假设单次事件发生的概率为,那么要到第
次才发生的概率为二项分布
中
的情况:
由于我们已经确定了事件发生一定是最后一次,因此可以反过来统计所有情况中
的期望,也就是:
将减去
可得:
可知就是等比数列
之和,且此和为
,因此问题转化为求
的值。
注:也可用随机过程马尔科夫链中的first time passage来解释,此处不表。贴吧有大佬提到此问题其实类似于多项分布(https://tieba.baidu.com/p/8537490099),由于我水平有限,只能用二项分布进行探讨,在此对于给予的指导表示感谢。
然而,由于塔菲表情包要求至少三张不同卡牌,也就是说实验必须至少从第二次起算(最多可能抽无穷大次也抽不中)。
从第二次开始,一共有两种情况:前两张卡牌相同或者不相同。对于后面的卡牌而言,不受到前两次抽取的影响,也就是无记忆性的(Memoryless Property)。因此根据几何概型,应从前两张卡牌相同和不相同分情况探讨。

为简化计算,先考虑前两张卡牌相同的情况。

①第一种情况,前两张卡牌相同,根据古典概型该情况共有24种可能性,经计算得概率为5.281605%(无后续数位)。

②第二种可能性,前两张卡牌不相同,由情况①可知该情况的可能性为94.718395%(实际上是94.898476%,这是由于四舍五入造成的微小误差)。此时面对第三次抽卡,问题转化为几何概型的二项分布,且为剩下22张卡牌的概率之和。但是,由于剩下22张卡牌的概率与前两张卡牌有关,因此必须先通过古典概型分类讨论:
使用excel计算的结果如下,第②种情况时平均需要1.060966629次可以抽到三张不同卡牌(基本一次中):


回到第①种情况,前两张卡牌相同时,此时由于仍然不知道第三张卡牌是否会相同,因此必须继续分类讨论。
(1)假设第三张卡牌和前两张不同,问题转化为第③种情况,但前两次的概率计算公式不同,需对第一张卡牌计算两次:

得到结果为0.056次。
(2)假设第三张卡牌和前两张仍然相同,该种可能性之和为0.2930921%,由于可能性太低可不作考虑。


综上,我们根据前三次抽取的情况做了如下探讨:
①AB型,该种可能性的概率为94.898476%,平均需要再抽取次数为1.060966629次
②AA型,该种可能性的概率为5.281605%,下又分两种情况:
(1)AAB型,该种可能性的概率为4.9885129%,平均需要再抽取次数为0.056次。
(2)AAA型,该种可能性的概率为0.2930921%。
总平均抽取次数为2+1.06+0.056+0.0293*2=3.1746次。

为检验该数字的正确性,使用蒙特卡洛方法在python中进行一亿次抽样,代码如下:
得到结果为3.17381068次。


由于3.17381068与3.1746较为接近,可以认为计算比较符合现实。然而由于本文过度简化了实际概率情况,导致可能出现三位小数以后的误差,造成一定的不足。