GCTA或R语言进行PCA主成分分析
主成分分析即PCA (Principal Component Analysis),不讲概念,我技艺不精,讲也讲不明白,可以看看这一篇讲解——《一文读懂主成分分析(PCA)》(https://mp.weixin.qq.com/s/1ER6p8eB8Le2UvInO6JPKQ)。
GWAS中,可以用PCA的分析结果代替群体结构结果进行关联分析。
可以做PCA的工具很多,比如GCTA、R语言的prcomp函数、tassel、gapit,后两个我没用过,记录一下前两种的方法。
注意两种方法都需要用到plink。
GCTA
1.安装
2.分析
3.可视化
这里的脚本画出来的是两两比对的图,例如主成分取3的话就会有三张图。
不推荐这么画,一般应该把所有个体画在一张图里+标注置信椭圆+上色(上色除了出于美观考虑,也是为了更容易区分不同主成分;如果结果不够好又不上色区分,画出来的图可能很难辨别)。
但我不会,嘿嘿
R的prcomp函数
师姐说这个方法靠谱一点。
1.处理前置文件
2.分析
后面需要再稍微手动处理一下文件就可以
TASSEL
操作特别简单,在tassel里打开plink格式文件,点击analysis - relatedness - PCA,然后等着出结果就行。
不过tassel运行慢得出奇,而且我还报错。之前是在macOS操作的,当时一直提示堆越界,看不懂什么意思。
在网上搜到了解决办法,虽然最终还是没解决但先贴在这里,改天用windows系统再试一遍。
没啦,干饭去咯