GWAS分析<二>之数据质控的原理

对于一个组学分析项目而言,无论是转录组、基因组和蛋白组,第一步需要做的就是数据质控。通过质控,分析人员可以避免分析的结果受到前期实验数据的影响。对于GWAS分析而言,样本采集(样本混杂)、DNA提取(提取方法造成的提取偏好性)、测序(探针、测序方法的误差)等原因都可能干扰分析结果。因此,为保证好的结果,我们需要借助plink软件对数据进行质控,并使用R对质控结果进行可视化。
一数据来源
需要注意的是,本次GWAS分析的数据来源分别为HapMap项目(the International HapMap Project)和千人基因组项目(the 1000 Genomesproject)。其中,千人基因组项目数据比较大, 本教程会在下一章教大家如何使用最少的数据完成本次项目的分析。本次质控所使用的软件为Plink。如果该软件接收的数据均为文本数据的话,则数据源为两种:基因型数据(以ped为后缀)和包含基因标记的信息数据(以map为后缀)。但是,考虑到GWAS的输入数据可能很大,因此,用户可以将部分数据压缩成二进制数据后再进行输入。如果是二进制数据,plink软件需要的数据源为三类:包含独立ID和基因型的数据(以bed为后缀,可能既包含病人样本和正常样本),包含个体信息的数据(以fam为后缀,包括遗传信息、性别和临床诊断结果),和基因标记的信息数据(以bim为结尾,包含snp的物理位置)。

另外,PRS分析也包括在本次教程之内。PRS分析即多基因风险分析(polygenic risk score),用来阐述SNP与疾病发生风险之间的关系。因为本项目仅使用了犹他州居民(祖先来自于北欧和西欧)的数据,样本较少,需要修改遗传效应大小(设置的很大)完成PRS分析。如果PRS分析的样本数较大,则需要检测复杂性状的遗传风险因子。
二 GWAS分析中部分关键定义的解释
Linkage disequilibrium (LD):给定群体中同一染色体不同位点等位基因之间非随机关联的度量。进行群体遗传结构分析时,如果位点之间有强连锁的关系则会影响分析的结果,因此需要过滤掉互相之间连锁(LD)不平衡的SNP。
Minor allele frequency (MAF) :特定位置出现频率最低的等位基因的频率。大多数研究在检测与MAF较低的SNPs的关联方面动力不足,因此排除这些SNPs。
Pruning:用于选择处于近似连锁平衡的标记子集的方法。通过软件计算染色体特定区域内SNPs之间的LD强度,并基于指定的LD阈值选择近似不相关的SNPs。注意的是修剪不考虑SNP的p值。
Sex discrepancy:这是指定性别和基于基因型确定的性别之间的差异。差异可能来自于实验室分析中样本混合现象。注意,需要在对性染色体(X和Y)上的SNP进行评估后才能进行该测试。
The Hardy–Weinberg (dis)equilibrium (HWE)law:HWE原则仅与等位基因和基因型频率之间的关系有关,并且需要基于一个假设,即存在无限大的群体,没有选择、突变或迁移。该定律的一个结论是基因型和等位基因频率在世代之间是恒定的。违反HWE定律表明,基因型频率与预期显著不同(例如,如果等位基因A的频率=0.20,等位基因T的频率=0.80;基因型AT的预期频率为2*0.2*0.8=0.32),观察到的频率不应显著不同。在GWAS中,通常认为与HWE的偏差是基因分型错误的结果。患病样本中的HWE阈值通常不如对照组严格,因为患病样本违反HWE法则可能表明真正的遗传与疾病风险相关。
multidimensional scaling(MDS) approach:通过计算样本中任何一对个体之间共享的等位基因的全基因组平均比例,以生成每个个体遗传变异的定量指数(成分)。本分析类似于PCA分析,用于筛除每个种族或重复的离群样本。
三 plink软件的质控参数
质控分为七步:(1)个体与SNP缺失;(2)受试者的指定性别和遗传性别不一致(见性别间差异);(3)次要等位基因频率(MAF);(4)与哈代-温伯格平衡(HWE)的偏差;(5)杂合率;(6)不同样本的亲缘性/关联性;(7)种群异常值(通过人口分层,去除单个种群中离群个体)。下面是质控时所需要使用到的一些参数,可视化部分则是通过R脚本实现。
--geno:去除低表型相关的SNP特征
--mind:去除存在高比例遗传缺失的个体
--check-sex:根据X染色体杂合/纯合率检查数据集中记录的个体性别与性别之间的差异。
--maf:去除包括低于设定MAF阈值的SNP。
--hwe:去除偏离HWE原则的标记
--genome:根据所有样本对的血缘同一性(identity by descent,IBD)的计算。
--min:设置阈值并创建关联度高于所选阈值的个人列表。这意味着可以检测到在pi-hat>0.2(即第二层级亲缘性)等方面有关联的受试者。
--cluster –mds-plot k:根据IBS生成数据中任何子结构的k维表示。
需要注意的是,质控还需要排除杂合率高或低的个体,这个将在后面通过plink和R脚本进行分析和数据可视化。
三惯例小结
GWAS的分析的正确实施需要依赖多学科的理论知识,包括生物学、统计学、计算科学等。上文介绍的一些定义虽然不够详细,但对于本教程的实施已经足够了。如果读者想要从更高的理论高度解释这个GWAS结果,则需要在多个领域深耕。比如,使用GWAS分析社群中某个生理或精神疾病的发生机制,这可能需要了解社群所处社会背景,而这可能也需要一些社会学知识的背景。综上所述,本教程仅仅介绍的是一个很简单的案例,但是读者可以在这种简单的案例上继续改良,从而挖掘出更多有效信息(顺便发个大文章)。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。


