欢迎光临散文网 会员登陆 & 注册

GWAS分析<三>之数据质控

2022-11-25 14:04 作者:生信小院  | 我要投稿


对于GWAS分析而言,数据质控是非常关键的一步。因此,本篇推文主要针对数据质控的命令和结果解读进行阐述,希望能够帮助读者实现从源头上实现数据质量的可控,从而避免因此产生的数据解析错误。

一 命令与结果可视化

首先,需要强调三个变量:source_data_dir、analysis_dir、plink_path。这三个变量所指定的意义如下:

source_data_dir:存放分析数据的文件夹

analysis_dir:存放结果的文件夹

plink_path:plink的软件目录,内含有已经编译好的plink二进制文件,可以直接调用。

接下来,开始进行数据质控相关的分析。

1.1 SNP检查

这一步的命令是调用plink软件检查每个个体缺失的snp比例和每个snp在所有个体中缺失的比例。

随后,我们可以调用GWAS_analysis.R脚本对结果进行进一步的可视化。

这一步会产生下图


图1 不同统计方法下SNP缺失比例(A:SNP;B:个体)直方图

从图1中可以看出仅少部分的样本均存在5%的SNP的缺失现象,仅少部分SNP在1.5%的个体中存在缺失。

1.2 性别检查

通过--geno--mind两个参数是用于分别去除低表型相关的SNP特征和存在高比例遗传缺失的个体,防止这些数据对结果产生偏差。当plink软件调用这一参数时,会同时对bedbimfam文件进行过滤,即每次过滤都会产生三个文件,方便后续的分析。

通过上述脚本,我们可以完成性别分析,即根据X染色体杂合/纯合率检查数据集中记录的个体性别与性别之间的差异,并移除性别差异的部分。


图2 X染色体杂合/纯合率的检查

从图2中可以看出,这次分析的样本中女性群体X染色体纯合性估计值小于0.2,男性群体X染色体纯合性明显大于0.995。Gender群体(男性与女性)的X染色体纯合性估计值存在两个极端。

整理好的可视化脚本(R语言编写),我也已经放在下面,方便各位读者取用(不过后续的可视化脚本部分将会单独整理成一期)。

二 惯例小结

GWAS的质控需要对获得测序数据进行多个维度的检查分析,这样才能避免可能存在的误差现象。考虑到太长不看的原则,本篇推文介绍的内容就不再额外增加了(作者借口偷懒)。

本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。

简书:WJ的生信小院

公众号:生信小院

博客园:生信小院

最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。

另外,怎么说呢,投币也可,不强求,但奢求。


GWAS分析<三>之数据质控的评论 (共 条)

分享到微博请遵守国家法律