孟德尔随机化为什么能掀起波澜?

关联无处不在,随着时间的增加,树的身高和儿童身高呈现正相关,树的身高会影响儿童的身高?非也!
真实世界研究中,为了发现可靠的关联,混杂的控制已成为一门必修课,如今控制混杂的主流方法有:随机分组、配对、分层、双重差分、倾向性匹配得分、多因素回归、本底事件率比矫正法、工具变量等。
在这些方法中为何孟德尔随机化能掀起波澜?
本课题组重磅系列,带你走进不一样的孟德尔世界!豌豆的世界!
硬菜正式奉上,欢迎各位老爷品尝!!!
病因的概念:那些能使人们发病概率升高的因素,即为病因。流行病学的病因一般称为危险因素,使疾病发生概率升高的因素——M. Lilienfeld
流行病学病因研究方法

•在流行病学研究中,观察性研究得出的结论并不是因果关系,我们通常认为因果关系是一种概率性关系。“贝叶斯网络之父”Judea Pearl写了一本书《为什么:关于因果关系的新科学》。在本书中,pearl主要阐述了因果关系之梯,分为了三个层级,从低到高分别是“关联”、“干预”、“反事实”。

第一层级的关系是Association-关联,主要通过Seeing-贯彻来发现事物之间的关联,比如A发生时,B也会发生。
第二层级是Intervention-干预,这一部分主要通过Doing—行动来确认事物之间的关联。比如通过改变A,去看B是否发生。
第三层及是Counterfactual-反事实,通过Imaging-想象来确认事物之间的因果关联,其实就是由果及因,比如想想B的改变是否可以通过改变A来实现。
此外,还有一些流行病学教科书上我们所熟知的模型来帮助我们更好的理解因果关系,例如三角模型和病因链模型。

———————————————————
Why is an instrument variable (IV)?

“Correlation does not imply causation”.
在吸烟与肺癌的观察性研究中,我们往往会考虑吸烟和肺癌之间可能存在的混杂因素,例如:年龄、性别、居住地、工作环境、社会经济地位等等。但是我们永远无法穷举所有的混杂,而通过使用工具变量,研究者可以通过利用一个与自变量相关但与混淆变量不相关的变量,来解决混淆变量的问题。这使得研究者可以得到一种类似于随机实验的效果,从而实现对因果效应的无偏估计。

具体而言,使用工具变量的步骤如下:
1. 选择一个与内生变量相关但与误差项不相关的变量作为工具变量。
2. 使用工具变量估计内生变量对工具变量的影响。
3. 使用得到的内生变量估计值作为独立变量,再次进行OLS回归分析。
4. 通过比较使用工具变量的估计结果和普通OLS回归的结果,判断内生性对估计结果的影响。

此图需要三个核心假设:
(1)Relevance:工具变量Z与暴露X必须相关联
(2)Effffective random assignment: 工具变量Z与混杂因素C无关
(3)Exclusion restriction: 工具变量Z不能对结果Y有任何直接影响。
IV在经济学方面、公共卫生、社会学和人类遗传学应用广泛,目前在人类遗传学领域的应用最为火热,以下是三个应用IV的经典案例:
IV in Economics: Effffect of military service on earnings[1]
征兵彩票可以看作是一种服兵役的“自然实验”

IV in Public Health: Effffectiveness of vaccine[2]
同样的想法也可以应用于不符合规定的RCT。

IV in Public Health: Effffectiveness of vaccine[3]
这是“孟德尔随机化”的一个特殊情况,其中遗传变异被用作IV,通常X是一个流行病学危险因素。即这些因素可能在疾病发生的过程中是处于更靠近因变量(或疾病)发生的“下游”位置

[1]Angrist, J. (1990). Lifetime earnings and the Vietnam era draft lottery: evidence from social security administrative records. American Economic Review, 80(3), 313–336.
[2]Hirano, K. et al. (2000). Assessing the effffect of an inflfluenza vaccine in an encouragement design. Biostatistics, 1(1), 69–88.
[3]Gamazon, E. et al. (2015). A gene-based association method for mapping traits using reference transcriptome data. Nature Genetics, 47(9).
———————————————————
遗传学中MR研究的步骤
工具变量筛选
· 读取工具变量
· 去除连锁不平衡
· 剔除混杂
暴露与结局相匹配
· 获取IV在结局中的信息
· 合并效应量
· MR分析
MR分析和敏感性分析
· 敏感性分析
· MR可视化
遗传工具变量的三个核心假设:
1. 关联性假设:遗传变异与暴露因素之间存在较强的关联性假设。
2. 独立性假设:遗传变异与影响“暴露和结局”的混杂因素独立。
3. 排他性假设:遗传变异只能通过暴露对结局发生作用,而不能通过其他途径
寻找合适的工具变量

GWAS是在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记 (如 SNP 或 CNV 等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。具体步骤如下:
GWAS→P<5E-8→连锁不平衡(LD)→独立性→排他性
连锁不平衡是指不同基因座(loci)的等位基因(allele)之间非随机(nonrandom)的关联。简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。
独立性:去除与暴露和结局有关的SNP,通过Phenoscanner :phenoscanner. medschl.cam.ac.uk/ 网站查找每个SNP的二级表型,去除与暴露和结局有关的混杂因素的SNP。
排他性:遗传变异只能通过暴露对结局发生作用,而不能通过其他途径。 多效性的存在也可能会违反这一假设,因此我们在后面的分析过程中,还需要对多效性进行评估。
———————————————————
总结,孟德尔随机化以基因型作为工具变量的优势是:
· 遗传相关中,因果关系的方向是确定的,遗传多样性导致了不同的表型,反之则不成立。
· 一般情况下我们所测量的环境暴露因素都或多或少与行为,社会,心理等因素相关,造成偏倚。但遗传变异则不受这些混淆因素影响。相对来说,遗传变异与其效应的测量误差较小。
· 目前GWAS的数据相对容易获取。MR研究的R代码已经体系化,各种MR开发小工具层出不穷,一旦确定了选题,出结果快。
————————————————————
MR研究相关结果展示,下期我们将推出MR研究的一系列代码,敬请期待。
MR敏感性分析

多效性检验

简单可视化




关注微信公众号,获取更多相关内容!

文字编辑:想不出吸睛好名字
审阅:老陈