欢迎光临散文网 会员登陆 & 注册

EWAS数据分析(1) — 数据过滤

2022-04-26 20:00 作者:鲸舟基因  | 我要投稿

       阐明人类复杂疾病的遗传和非遗传的致病因素是生物医学研究的主要挑战之一。全表观基因组关联研究(epigenome-wide association studies,EWAS)与GWAS类似,都是在全基因组水平上对疾病的复杂性状进行关联分析,两者的差别在于GWAS关注于SNP位点的差异而EWAS关注于表观修饰(特别是DNA甲基化修饰)的差异。Illumina的甲基化芯片Infinium MethylationEPIC BeadChip(简称850K芯片)是目前进行EWAS研究的主要数据来源。那么,当有了850K的芯片数据之后,怎么来进行EWAS分析呢?

总体来说,EWAS的基本分析主要分为5个过程,分别是(1)数据过滤;(2)数据质控;(3)探针信号校准;(4)批间差与异质性校准;(5)关联分析。


一、数据过滤篇

高通量芯片数据,一般的研究分析,在数据过滤方面要求不是很高。但是,基于甲基化芯片EWAS分析, 数据要求更高,所以数据过滤就会严格很多,具体的过程包括以下几部分:


1)根据detectionP值进行过滤

每个样本每个CpG位点都对应一个detection P值。p值越小,则位点信息越可靠。

通常的过滤标准:

i)若某样本有超过10%的CpG位点detection P值大于0.01,则考虑滤除该样本;

ii)若过滤样本后,某CpG位点仍有detection P值大于0.01,则滤除该位点;

该断则断,不断则乱!!


2)根据beadcounts进行过滤

850k芯片中,每个CpG位点对应的探针都分布在多个磁珠(Beads)上。每个样本每个CpG位点都对应一个NBeads值,即产生荧光信号的Beads数。该值越大,则探针信号越可靠。一般认为NBeads小于3的探针是不可靠的。

过滤标准:在超过5%的样本中,某CpG位点NBeads数小于3,则滤除该位点;

大家都说好的,才留下!!


3)根据Non CpG位点进行过滤

在850k芯片中,包含大量质控探针等非CpG检测探针,如59个SNP位点、635个各类质控探针等等,在EWAS分析时应予以滤除。

无关人员,请速离开!!


4)根据CpG位点多态性进行过滤

据研究,某些CpG位点在部分人群中具有较高频率的单核苷酸多态性(SNP)。由于甲基化芯片本质上是一种SNP芯片,所以SNP多态性会影响DNA甲基化检测。故应滤除这些CpG位点。

摇摆不定,也请走!!


5)根据CpG位点探针非特异比对进行过滤

据研究,某些CpG位点对应探针可以blast到多个不同的染色体区域。这类探针将不能准确判断设计位点处的甲基化水平。故应滤除这些CpG位点。

脚踏多船,请下船!!


6)过滤性染色体CpG位点

在进行EWAS分析时,如果所关注的样本性状与性别无关,则需要滤除性染色体上的CpG位点。因为这些位点的甲基化分布与性别有明显关联,会影响后续EWAS分析。


7)根据甲基化水平波动程度进行过滤

在进行EWAS分析时,一般关注差异位点。如果CpG位点Beta值在各样本间标准差很小,则意味着该位点在各样本间几乎没有差异,在预处理时便可予以滤除。

过滤标准:若CpG一般认为标准差小于0.01的,即可视为没有差异的CpG位点。

有差异,才有价值!!


8)缺失值处理

目前缺失值处理以过滤为主,即滤除存在缺失值的CpG位点。因为目前甲基化方面没有合适的人群参考数据集进行缺失值填补(Imputation)。

若已知对应CpG位点的基因型(genotype),则可以根据基因型信息和相关样本的甲基化水平进行Beta值的缺失值填补。

你有我无,不行!!


通过上述8大严格数据过滤条件,剩下相对比较可靠的甲基化位点数据,为后面的EWAS分析打下基础。那么,数据质控又需要做些什么?请关注下回分解!

EWAS数据分析(1) — 数据过滤的评论 (共 条)

分享到微博请遵守国家法律