GWAS分析<一>之原理介绍

本公众号最近因为主业太忙,占据了大量的时间,因此,也拖更了很长一段时间了。不过想想,时间就像海绵,挤一挤总是有的。另外,也考虑到GWAS也是最近比较热门的一种技术,自己后面可能也会用到,因此,也开辟一个教程,用来学习GWAS分析,分享一下踩过的坑和学习的心得。本文的话主要介绍一些GWAS的原理和需要使用的基本软件,后续的推文将逐步介绍如何通过脚本撰写,软件调用,结果解读完成GWAS分析。一 为什么要做GWAS

从上图可以看出,有3类苹果,分别是青苹果(#1)、红苹果1(#2)、红苹果2(#3)。虽然,都是苹果,但是不同的核苷酸突变导致果实的颜色出现差异。而对于生物而言,不同物种间存在成千上万个单核苷酸的差异,即使是不同个体间,也存在数量不少的单核苷酸的差异。这些差异可能导致了物种多样性,也可能导致个体间的表型差异。而为了研究这种差异,人们开发一种方法,通过将应用基因组中数以百万计的单核苷酸多态性(single nucleotide polymorphism,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,比较发现影响复杂性状的基因变异的一种新策略,也就是常说的全基因组水平关联分析即GWAS分析。
二 GWAS分析之常用软件
那么,对于这种分析,我们需要使用到哪些软件呢。这里就为大家提几种常见,也是本文后续会用到的几个软件plink、samtools、TASSEL、bwa、admixture、gatk。
PLINK: 该软件提供了一个强大的、用户友好的工具,用于对全基因组数据进行许多常见分析,包括但不限于数据转存、质控、亲缘关系检测分析、近交系数分析、连锁不平衡值计算,单倍型分析等。
TASSEL:该软件用于性状关联、进化模式、连锁不平衡的评估。该软件能够为关联映射提高了许多新的,强大的统计学方法,处理各种索引(包括插入和删除)。
Admixture:用于群体结构分析。
Gatk:该软件最初是为了人类遗传学而开发的,但是后续经过开发者的补充和迭代,现在已经能够用于处理处理Illumina测序技术产生的外显子组和整个基因组,用于鉴定种系中DNA和RNAseq数据中SNP和INDEL,处理范围包括细胞短变异体呼叫,拷贝数变异(CNV)和结构变异(SV)。
Bwa和samtools就不过多介绍了,熟悉测序的童鞋应该都知道这两个软件一个是比对软件,一个是格式整理的软件。
三 惯例小结
在当今大数据的背景下,通过GWAS分析挖掘snp,并将其作为育种的理论依据,已经成为现如今生信分析必须掌握的技能之一了。掌握了这么手艺,应该能帮助大家更好的找工作或者求学,为自己的技能树上再点亮一个新方向。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。


