GWAS分析<三>之数据质控

2022-11-25 14:04 作者:生信小院 0人读过 | 我要投稿

对于GWAS分析而言，数据质控是非常关键的一步。因此，本篇推文主要针对数据质控的命令和结果解读进行阐述，希望能够帮助读者实现从源头上实现数据质量的可控，从而避免因此产生的数据解析错误。

一命令与结果可视化

首先，需要强调三个变量：source_data_dir、analysis_dir、plink_path。这三个变量所指定的意义如下：

source_data_dir：存放分析数据的文件夹

analysis_dir：存放结果的文件夹

plink_path：plink的软件目录，内含有已经编译好的plink二进制文件，可以直接调用。

接下来，开始进行数据质控相关的分析。

1.1 SNP检查

这一步的命令是调用plink软件检查每个个体缺失的snp比例和每个snp在所有个体中缺失的比例。

随后，我们可以调用GWAS_analysis.R脚本对结果进行进一步的可视化。

这一步会产生下图

从图1中可以看出仅少部分的样本均存在5%的SNP的缺失现象，仅少部分SNP在1.5%的个体中存在缺失。

1.2 性别检查

通过--geno和--mind两个参数是用于分别去除低表型相关的SNP特征和存在高比例遗传缺失的个体，防止这些数据对结果产生偏差。当plink软件调用这一参数时，会同时对bed、bim和fam文件进行过滤，即每次过滤都会产生三个文件，方便后续的分析。

通过上述脚本，我们可以完成性别分析，即根据X染色体杂合/纯合率检查数据集中记录的个体性别与性别之间的差异，并移除性别差异的部分。

从图2中可以看出，这次分析的样本中女性群体X染色体纯合性估计值小于0.2，男性群体X染色体纯合性明显大于0.995。Gender群体（男性与女性）的X染色体纯合性估计值存在两个极端。

整理好的可视化脚本（R语言编写），我也已经放在下面，方便各位读者取用（不过后续的可视化脚本部分将会单独整理成一期）。

二惯例小结

GWAS的质控需要对获得测序数据进行多个维度的检查分析，这样才能避免可能存在的误差现象。考虑到太长不看的原则，本篇推文介绍的内容就不再额外增加了（作者借口偷懒）。

本公众号开发的相关软件，Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户，也欢迎大家关注并多提意见。

简书：WJ的生信小院

公众号：生信小院

博客园：生信小院

最后，也欢迎各位大佬能够在本平台上：1传播和讲解自己发表的论文；2：发表对某一科研领域的看法；3：想要达成的合作或者相应的招聘信息；4：展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会，都可以后台给笔者留言。希望本平台在进行生信知识分享的同时，能够成为生信分析者的交流平台，能够实现相应的利益互补和双赢（不一定能实现，但是梦想总得是有的吧）。

另外，怎么说呢，投币也可，不强求，但奢求。

标签：

GWAS分析<三>之数据质控

GWAS分析<三>之数据质控的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

GWAS分析<三>之数据质控

本文作者的其他文章

GWAS分析<三>之数据质控的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

GWAS分析<三>之数据质控的评论 (共条)