EWAS数据分析(3) — 数据校正篇
EWAS分析,数据过滤和数据质控已经做完了,数据和样本已经审核完毕,接下来做什么呢?能进行关联分析了么?别急,接下来是数据校正过程。
1. 探针信号校准
探针信号校准也叫数据归一化。850k芯片设计中包含两类探针。由于两类探针设计方式具有本质的不同,这导致两类探针的信号数据分布不一致,所以如果一开始就将两类探针CpG位点检测结果作为整体去分析,所得结果将不准确。

从图1可以看出,两种探针类型的beta值分布模式是不一致的。已知beta值越趋于0,则意味着该位点甲基化可能性低;趋于1则意味着甲基化可能性高。因此曲线的两个峰,可以视为甲基化(U)和非甲基化(M)位点的比例。对于Type II来说,可以看到其曲线近似关于beta=0.5呈对称分布,同时略偏向于信号值更高的甲基化位点区。研究认为,这可能是因为,Type II探针有更高的背景噪声,比如其GC含量、特制碱基或者一个探针释放两种荧光导致的。因此往往根据Type I探针的分布来校准Type II探针。
对甲基化数据进行良好的预处理,可以减小组内数据波动性,减小无关变量对数据的影响,从而提升统计检验效力。目前常用的探针信号校准方法是BMIQ算法。

2. 批间差校准
由于EWAS分析通常是大样本,实验的时间跨度很大,也有可能是同一个项目,来源不同实验室的数据。因此,需要对不同批次,不同来源的数据进行批间差校准。
目前批间差校准主要通过PCA或SVD方法,分析各样本beta值数据,归纳其中的隐藏协变量,在后续回归分析中,对隐藏协变量进行校正。
可以通过SVD图观测协变量的影响。例如下图只有分组信息对主成分有显著影响,其他协变量对主成分没有显著影响。

3. 细胞异质性校准
当样本来源于细胞异质性组织时,需要对甲基化数据进行细胞异质性校正。例如全血样本,其中包含红细胞、白细胞等多种不同类型的血细胞,其甲基化分布模式至少有5种。这些异质细胞的组成比例在各种疾病状态下往往不相同。一般这种异质性因素造成的甲基化差异并非我们关注的重点,因此在后续分析之前,需要对细胞异质性进行校正。
按照有无参照数据库,可以把细胞异质性校正分为两种:有参照校正(主要用于全血细胞样本)、无参照校正。
经过数据过滤、质控、探针信号校准、批间差校正、细胞异质性校准后,就得到最终甲基化beta表:

经过以上过程,终于可以得到进行关联分析得甲基化位点数据,那么,接下来得关联分析怎么做?请耐心等待下回分解!