EWAS数据分析(2) — 数据质控篇
上一篇的EWAS数据分析系列技术分享介绍了EWAS数据分析的第一步:数据过滤,这一篇主要跟大家分享接下来的分析流程:数据质控。

好的数据质控是非常重要的,数据质控过了,后面的分析拿到的结果才有可能是客观,而不是假阳性的。那么,数据质控又需要哪些过程呢?
1. 样本性别分析
X染色体上的CpG位点可以作为质控指标。因为女性染色体上,其中一个X染色体处于不活跃状态,大量位点被甲基化。因此对于男性、女性进行比较时,女性样本应该有50%以上的X染色体CpG位点被甲基化,而男性则明显较少。通过与给定样本性别进行比较,可以确定异常样本予以剔除。

2. Bisulfite转化信号
亚硫酸盐转化效率是850k芯片质控的重要指标。850k芯片上内置bisulfite conversion I型探针,其信号值可以反映亚硫酸盐转化效率。通过对其绘制散点图,可以找出转化信号离群的异常样本,予以剔除。

3. 整体信号中位值分析
对于各样本而言,其所有CpG位点上Methylated和Unmethylated信号中位值应该比较接近。因此,以横坐标为Methylated信号中位值、纵坐标为Unmethylated信号中位值,绘制各样本散点图,可以从中找到离群样本,予以剔除。

4. Beta值曲线分析
通过绘制Type I、Type II探针的Beta值曲线,前后比较数据标准化效果。对于偏离异常样本,予以剔除。

5. PCA主成分分析
经过上述过滤后,在所有CpG位点的层面上,利用所有样本进行PCA主成分分析。在第一、二、三主成分空间上,可以展示样本分布。一般认为在第一、二主成分的维度上,位于4倍标准差范围之外的样本是异常样本,可以考虑予以舍去。

例如,上述PCA图中可以看到有2个样本位于4倍标准差范围之外。
通过以上5个过程的数据质控,实现了对偏离样本的识别与剔除,为后续的工作打下了坚实的基础。那么,接下来是否就可以进行关联分析了呢?别急,请耐心等待下回分解!