浅谈因果框架

2023-07-17 18:54 作者:80623781657_bili 0人读过 | 我要投稿

1、因果推断研究必要性

必要性：通过研究表明过于依赖统计相关的建模方式，存在着严重的理论缺陷：缺乏因果关系考虑，仅从数据中学习到的相关性可能是错误的。首先，利用相关性学习的模型，泛化能力和稳定性差，极易受到场景变化或数据中异常值的影响；再者，过度依赖数据拟合的机器学习模型就像是一个黑盒子，缺乏可解释性。

2、因果关系的三个层级

第一层级(关联):从数据中观察到哪些相关规律?是对历史数据的总结。

第二层级（干预）：如果采取某个行动，会产生什么结果？是面向未来的推测。

第三层级（反事实）：如果当时采取了另外一个行动，结果会是怎样？是面向过去的反思。

目前阶段：大部分机器学习模型主要在第一层级，仅仅实现了对历史数据的“曲线拟合”，这就导致：一是解释性差，拟合背后的作用机理处于黑盒状态；二是泛化性差，拟合得到规律只适用于训练数据。而因果推断方法能让我们站上第二、三层级，从而实现更好的解释性和泛化性，这也是因果推断在机器学习领域逐步兴起的一大原因。

3、因果关系的两大框架

3.1 Donald Rubin（美国哈佛大学的教授，目前在清华大学丘院任教。）

潜在结果模型：Rubin流派关注于如何用数学去详细地计算某件“因”能带来多少“果”。

我们把每个研究对象或者用户用i来表示，他们可能会受到一定的策略干预：Ti=1代表受到了干预（实验组），Ti=0代表没有受到干预（基准组），对应的我们关心的结果分别是Yi0和Yi1，但是只有一种情况会真实发生，也就是说Yi0和Yi1只能观察到其中一个，另一个未知。这里我们期望得到的因果推断结果是平均处理效应ATE=E[Y1-Y0]。

举例说明：例如我们发现Airbnb上的用户每进行一次旅行，就会平均对平台的信任度提高1%，95%置信区间[-1.3%, -0.4%]，（Zhu et al. 2020）。

Rubin流派非常切合商业世界，因为我们根本不想浪费时间知道今天下雨会带来多少营业收入增长这种无意义的因果关系。

使用Rubin流派的企业，需要清晰知道企业对什么事情感兴趣，只想对这一件事儿带来的果做出因果关系估计。

3.1.1 技术思想与方法总结

A/B测试：潜在效果模型最常见的方法就是随机实验，或者说是我们在工业界中常用到的A/B测试。我们通过一定的随机性抽样构造实验组和基准组，来观察组间的差异。

工具变量法：工具变量是解决线性回归问题内生性的一种方法。接下来我们介绍一下内生性问题和如何通过工具变量解决内生性。内生性的主要问题是如果我们关心X对Y的影响，但是存在无法测量到的变量U，且U会同时影响X和Y。那么X具有内生性，U即上文提到的混淆变量。如果我们能找到一个跟X有关的变量Z，且Z与U不相关。那我们可以通过Z作为工具变量来估计X对Y的因果效应，具体计算方法一般是两阶段最小二乘法。工具变量法在实际使用的时候，要注意避免“弱工具变量”的问题，也就是工具变量Z和关心的变量X相关度很低，这样会造成估计的因果效应有偏差，可以依赖统计检验方法来确认这样的问题是否存在。

匹配法：匹配（Matching）是被业务广泛使用的一种因果分析方法，主要是为了解决当实验组和控制组由于某种原因(confounder)不可比的时候，通过给实验组的每一个用户匹配和他在某些特征上最相似（CEM粗粒度匹配）或者接受干预概率（propensity score）最相似（PSM倾向性得分匹配）的控制组用户，重新制造可比的实验组和控制组。

逆概率加权等等一些方法

3.1.2 应用

使用更少的样本但更好地帮助我们理解新药的价值和风险；
理解一/二级市场因子究竟会对价格或市场产生多大的因果影响。

3.2 结构因果模型

在前一个部分我们介绍了潜在结果模型的主要思想和方法发展。这一类流派方法统计理论比较完善，可以得到比较准确的估计结果。但是也存在一定的局限性，只能用于估计变量之间一度相关的影响(只允许有一个因变量和一些自变量，不能估计间接影响的链路)，去如何学习众多变量之间的链路和复杂关系，则需要用到另一个流派的结构因果模型方法。

结构因果模型用有向无环图 (directed acyclic graph；DAG) 来描述变量之间的因果关系和条件分布。图的每个节点是一个变量，因果关系由链接这些节点的边来表示，例如X1<-X2代表了X2影响了X1，我们也称X1为子节点，X2为父节点。对于一组随机变量X=(X1,X2,...,XP)形成的DAG。

3.2.1 技术思想与方法总结

基于条件独立检验的因果发现：基于约束条件实现（V结构）

PC 算法仍是将完全图作为初始骨架图, 然后从空集开始逐步增大分离集的大小,不断删除骨架图中的边, 使得每个结点的邻居数不断减少,寻找两个节点的分离集限定在它们的邻居集的子集范围内,目的是避免高维变量的条件独立检验。

FCI算法用以在未观测混杂变量和样本选择偏差存在的情形下学习因果结构, 该方法在 PC 邻接搜索的基础上, 利用额外的条件独立性检验以处理潜在混杂变量

基于评分模型的因果发现：

两阶段的贪婪等价搜索算法 (greedy equivalence search, GES)是该类型的一个代表性方法, 它基于观测数据, 从 DAG空间中搜索获取真实分布的完备图,但该方法尚无法处理未观测混杂变量、样本选择偏差等问题。

基于结构方程（函数）的因果发现：

LiNGAM作为该研究方向的一个代表性模型, LiNGAM的全称是Linear Non-Gaussian Acyclic Model，即线性非高斯无环模型。它建模连续随机变量间的因果关系,假设变量间线性关联且噪声项服从非 Gauss 分布. 独立成分分析技术(independent component analysis, ICA) 被用于 LiNGAM 的模型选择,但由于超参数选择问题, ICA 算法常常陷入局部最优而无法收敛于最优解。

ANM、CANM、PNL、IGCI、HCR、SELF

独立因果假设：

这部分后面还需要补充和完善，目前整理不是特别好。

3.2.2 应用

应用于千千万万的边缘节点，帮助人们认识和理解各个边缘节点间的作用关系，应用范围在：移动互联网、工业互联网、智能家居等等

标签：研究生生活统计学毕业论文大学生生活因果推断因果学习因果发现