GWAS分析<四>之数据质控最终章

上一篇推文《GWAS分析<三>之数据质控》已经介绍了GWAS分析中数据质控的部分内容,但是,受限于篇幅原因,仅介绍了一半的内容。本篇推文算上一篇推文的延续,继续将数据质控分析中剩下的部分介绍完毕。
一 命令与可视化结果
1.1 常染色上SNPs的获得
因为人体染色体中第1到第22号染色体均为常染色体,所以本教程通过unix中的awk命令提取1-22染色体的数据,并存储在snp_1_22.txt文件中。随后,通过—extract和--freq参数分别进行常染色体中SNPs信息的提取和MAF分布情况统计。再调用可视化脚本GWAS_analysis.R展示MAF分布情况(见图1)。最后,通过--maf 0.05过滤掉MAF值较高的SNPs位点。

1.2 SNPs的HWP分布情况调查
本步骤主要是检查所有SNP的HWP分布的p值,并选择低于0.00001的SNP,并可视化存在强烈偏移的SNP(见图2)。本教程使用两个步骤,首先对控制使用严格的HWE阈值,然后对病例数据使用不太严格的阈值。。
注意:第二次筛选仅只关注病例样本。

1.3 筛选符合杂合率要求的个体
本步骤的目标是去除杂合率偏离平均值超过3 SD的个体。使用Rscript生成杂合率分布图(见图3),并进行统计分析,输出fail-het-qc.txt文件。当使用我们的HapMap示例数据时,该列表包含2个体(即两个个体的杂合率杂合率偏离平均值超过3 SD)。调整这个文件,使其与PLINK兼容,从文件中去掉所有引号,只选择前两列,从而完成杂合率异常值个体的筛除。

1.4 检查数据集是否存在隐形关联
检查所分析的数据集的隐性亲缘关系是至关重要的,所有高于pihat阈值0.2的个体可能会干扰GWAS的分析结果,因此需要进行筛除。在本教程中,我们的目标是去除数据集中的所有 "相关度"。HapMap数据集包含父母与子女的关系,而教程演示的目的,我们将亲缘关系视为随机人口样本中的隐性亲缘关系。通过使用z值具体地可视化这些亲子关系,能够生成一个图来评估关系的类型。通常情况下,基于家族的数据应使用特定的基于家族的方法进行分析。
首先,获取pihat阈值低于0.2的个体,并去除创始者,可视化不同个体间的亲缘关系。随后,调用’--genome --min 0.2’以及0.2_low_call_rate_pihat.txt文件删除pihat阈值低于0.2的个体和低召回率的个体。



祝贺各位!!!到这里,你已经成功地完成了GWAS分析的第一步。后面,你就可以使用质控之后的数据进行适当的GWAS分析啦。
二 惯例小结
通过上述内容,我们完成了GWAS分析中质控环节。这些结果的完成为我们后续的分析提供了坚实可靠的依据,也避免了因数据清洗不完全带来的结果分析偏差。后续推文中,我们将以前人基因组为例,展示如何进行完整的GWAS分析。可视化脚本也会在后面进行介绍,欢迎大家持续关注。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。


