935K甲基化芯片实测质控数据展示
甲基化在维持正常细胞功能、遗传印记、X染色体失活、胚胎发育、衰老以及疾病的发生起着极其重要的作用。近日,Illumina推出了 Infinium Methylation EPIC v2.0(Illumina 935K甲基化芯片),该产品是Illumina Methylation EPIC v1.0(illumina 850K甲基化芯片)的升级版本,该芯片包括超过935,000个CpG位点,最大限度地兼容Illumina 850K甲基化芯片的情况下,935K甲基化芯片在原850K甲基化芯片的基础上经过评估,将850K甲基化芯片中性能较差的探针移除和替换。同时增加了186000个CpG位点,包含靶向增强子、超级增强子、CTCF结合位点、CNV检测区域以及850K甲基化芯片上未充分覆盖的CpG岛和常见的癌症驱动突变。此外,935K甲基化芯片还增加了经ATAC-Seq和ChIP-Seq实验鉴定的染色质开放区域,同时注释基因版本从HG19更新到HG38以及GenoCode数据库的更新,该款芯片不仅是适合筛选分子标志物的一款芯片,同时也是一款适合复杂疾病基因组关联分析研究的(EWAS)的最新款甲基化芯片。
中科普瑞/鲸舟基因用细胞系样本进行实验,每一株细胞系进行4重复,用于检测Illumina 935K甲基化芯片的稳定性,从illumina平台质控数据、中科普瑞平台质控数据以及差异分析等多方面验证这款新产品的适用性以及公司检测的稳定性。
01. Illumina芯片平台常规质控数据
在完成illumina 935K甲基化微珠芯片后,将原始数据导入GenomeStudio软件,可以从Control Dashboard得到质控微珠的数据。从实验操作,转化和信号值3个方面对芯片进行质控。





以上3个方面可以看出杂交实验过程稳定、转化率高、荧光信号和结合状况良好,综合说明实验操作稳定。
02. 中科普瑞芯片平台常规质控数据
935K甲基化芯片原始数据为idat文件,我们基于Champ包对样本进行数据质控,获得每个样本的DNA甲基化位点β值,基于illumina芯片位点基于Beta矩阵表对I型探针和II型探针的校正,然后对数据进行质控可视化图的展示,主要从SVD批次校正图、density图、箱线图、PCA图,相关性热图、聚类图6方面来进行说明。
💠 SVD分析用于评估样本数据中重要元素的变异程度。我们将EPIC芯片间的差异以及芯片上样本的位置视为批间差,考虑到这可能会对后续分析产生影响,因此使用SVD分析。


从SVD校正之前和校正之后的图我们可以看到,芯片的批间差(slide和position)对项目的差异结果是造成了影响,批间差校正使用Combat算法进行。在校正后,再进行一次SVD分析,查看校正后结果显示芯片的批间差异校正,无批间差影响后续差异分析结果。
💠 Density图,全基因组范围的DNA甲基化变化是复杂疾病和肿瘤研究的热点。我们通过绘制样本β值密度曲线图,查看不同分组的样本DNA甲基化整体水平。

通常的β值密度曲线图呈现“双峰型”,即绝大部分的甲基化位点处于高甲基化和低甲基化的状态,通过上图我们可以看出该项目测试数据β密度曲线属于正常的甲基化状态,同时也看出4样本重复性几乎一致。
💠 箱线图,我们使用箱线图来表征各样本β值数据分布的整体特征,包括中位值、P25、P75分位值。

通过箱线图我们可以看出由于测试的是细胞系样本,细胞系样本的中位值、P25、P75分位值差别比较大,在正常组织、全血、细胞等样本中的中位值、P25、P75分位值相差并不是很大,主要是由于细胞系样本组成单一,受原代细胞影响,从另一方面也说明了数据的重复性较好,数据结果也比较稳定。
💠 PCA主成分分析是一种对数据进行简化分析的方法。能够有效地找出数据中最“主要”的元素或结构,通过降噪和除冗余将原有的复杂数据降维,并展示在二维的主成分图上。在PCA图中,距离越接近代表样本的组成越相似。对于理想的实验分组,组间的样本会出现分散的分布,而组内则会出现聚集的情况。

在PCA图的结果展示种我们知道距离越接近代表样本的组成越相似,从上图分析结果来看可以看出每个细胞系做了4重复实验,同组细胞系样本聚类分群明显。
💠 样本相关性热图,样本相关性热图用于展示样本之间的相关性。通过计算两两样本之间的相关系数进行作图。图中横纵坐标均为样本,每一个点代表对应的这两个样本之间的相关性。颜色由蓝到红,表示两个样本间的相关性由低到高。颜色约红,表示样本相关性越高,那么整体甲基化模式越相似。

样本相关性热图的分析我们知道颜色越红代表样本的组成越相似,从分析结果来看可以看出同一个细胞系做了4重复实验相关性极高。
💠 样本聚类图,样本聚类分析主要展示所有样本间的相似程度,样本相似度越高的样本越会被聚类到一个簇上。

通过聚类分析样本的相似度,从结果来看可以看出同一个细胞系做了4重复实验相关性很高。