【因果推断入门】第1季第2集 辛普森悖论 上 Simpson's Paradox

辛普森悖论
例1

单看男性的数据吃药对恢复有帮助,单看女性的数据吃药对恢复也有帮助
但是忽视性别后看整体数据吃药对恢复就没有帮助

解释(性别是一个较为重要的因素)
用条件概率表达





A的取值(人群中吃药恢复的概率)
不仅取决于
①(男性吃药恢复的概率)
③(女性吃药恢复的概率)
还取决于于
q(吃药的人群中是男性的概率)
((1-q)吃药的人群中是女性的概率)

- 吃药的人里女性数量较多
- 女性的恢复力比男性差

性别会影响
①用药的情况
②身体的恢复情况
所以对于整体的数据(不区分性别),用药的恢复比不用药的差是因为
用药的人里女性比较多,而女性的恢复力比男性差一些
性别是混淆变量
如果想要观察到用药和恢复之间有没有因果关系
首先要把像性别这样的因素剔除掉(剔除掉的办法就是看这个因素的分类数据)
如果看的是整体数据用药对恢复就没有帮助,但其实并不是药没有效果,只是用药的人里女性较多而女性的恢复比较差
性别在这里扮演了混淆变量的角色
性别(混淆变量)
同时影响用药(原因)和恢复(结果)
它的存在会让你的数据整体与局部产生一个反向的结论
所以应该看分类数据,因为分类数据把性别的因素剔除掉了
辛普森悖论









