GWAS的群体分层:使用plink对基因型进行PCA
相信各位在学习GWAS原理时对GWAS的作图群体有了一定的了解,在林木、农作物等生长时间较长的物种来说,构建子代、RIL甚至NAM群体需要较长的时间,在群体构建完成之前,GWAS是少有的自然群体适合做的分析之一。尽管如此,受限于自然群体的特性,自然群体无法获得明确的谱系,一般都是通过基因型PCA确定亲缘关系,减少假阳性。因此我们需要在关联分析前对该群体做PCA分析,随后将PCA结果作为协变量加入关联分析中。
1.plink的安装
plink2.0 网站:https://www.cog-genomics.org/plink/2.0/

Plink的二进制文件支持Intel、AMD、M1等芯片。下载对应的文件后使用make、configure安装即可。
2.使用plink进行PCA分析
运行分析之前,需要自己准备基因型数据。
plink --bfile myfile --pca 3 #这里只取前3个PCA结果,如果想取其他数值,请自行设置
输出的结果文件中包括以下两个文件
plink.eigenval,特征值,共有3行数据,分别是3个PCA的特征值
plink.eigenvec,特征向量,第三四五列是3个PCA的特征向量,作图用前两个PCA
文件如图所示

PCA的可视化:
library(tidyverse)
re1a=fread("plink.eigenval")
re1b=fread("plink.eigenvec")
re1a$por=re1a$V1/sum(re1a$V1)*100
head(re1a)
ggplot(re1b,aes(x=V3,y=V4))+geom_point()+
xlab(paste0("PC1(",round(re1a$por[1],2),"%)"))+
ylab(paste0("PC2(",round(re1a$por[2],2),"%)"))

如上图所示,群体间存在明显的群体分层,需要PCA结果作为协变量加入关联分析中。如果gwas没有明显的信号,可以将多个群体独立进行GWAS分析,然后再做meta分析。
至于meta分析怎么做,欢迎关注小云,小云将在后续继续为您推出meta分析的教程。

