GWAS分析<三>之数据质控

对于GWAS分析而言,数据质控是非常关键的一步。因此,本篇推文主要针对数据质控的命令和结果解读进行阐述,希望能够帮助读者实现从源头上实现数据质量的可控,从而避免因此产生的数据解析错误。
一 命令与结果可视化
首先,需要强调三个变量:source_data_dir、analysis_dir、plink_path。这三个变量所指定的意义如下:
source_data_dir:存放分析数据的文件夹
analysis_dir:存放结果的文件夹
plink_path:plink的软件目录,内含有已经编译好的plink二进制文件,可以直接调用。
接下来,开始进行数据质控相关的分析。
1.1 SNP检查
这一步的命令是调用plink软件检查每个个体缺失的snp比例和每个snp在所有个体中缺失的比例。
随后,我们可以调用GWAS_analysis.R脚本对结果进行进一步的可视化。
这一步会产生下图

从图1中可以看出仅少部分的样本均存在5%的SNP的缺失现象,仅少部分SNP在1.5%的个体中存在缺失。
1.2 性别检查
通过--geno和--mind两个参数是用于分别去除低表型相关的SNP特征和存在高比例遗传缺失的个体,防止这些数据对结果产生偏差。当plink软件调用这一参数时,会同时对bed、bim和fam文件进行过滤,即每次过滤都会产生三个文件,方便后续的分析。
通过上述脚本,我们可以完成性别分析,即根据X染色体杂合/纯合率检查数据集中记录的个体性别与性别之间的差异,并移除性别差异的部分。

从图2中可以看出,这次分析的样本中女性群体X染色体纯合性估计值小于0.2,男性群体X染色体纯合性明显大于0.995。Gender群体(男性与女性)的X染色体纯合性估计值存在两个极端。
整理好的可视化脚本(R语言编写),我也已经放在下面,方便各位读者取用(不过后续的可视化脚本部分将会单独整理成一期)。
二 惯例小结
GWAS的质控需要对获得测序数据进行多个维度的检查分析,这样才能避免可能存在的误差现象。考虑到太长不看的原则,本篇推文介绍的内容就不再额外增加了(作者借口偷懒)。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。


