GWAS基础概念
GWAS
全基因组关联分析(Genome-wide association study,GWAS)是指对多个个体在全基因组范围的遗传变异(标记)多态性(SNP)进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性p值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。
即研究基因与表型的关联,找出哪些SNP与目标性状相关。
GWAS常用分析方法:
逻辑回归(表型数据为二元,如病了和没病)
线性回归(表型数据为连续性变量,如高度)
表型数据正态分析(如果不是正态分布,需转换处理为正态分布;大自然的分布一般都是正态分布,很多统计方法都是根据正态分布作出的分析,如果数据不符合正态分布,用正态分布的公式/方法来分析就会出大问题)
LD衰退
连锁不平衡(Linkage disequilibrium,LD)是指分属两个或以上基因座位的等位基因同时出现在一条染色体上的几率,高于随机出现的频率。
在满足哈迪温伯格的情况下,A与B基因同时出现在一条染色体的概率应为P(A)xP(B),即两者没有关联、各自随机出现;但如果A和B偏向于抱团遗传,不再完全随机、两者之间具有相关性,则为连锁不平衡。
一般用D值来度量不同基因座之间的相关性。
D=P(AB)-P(A)xP(B)
D不等于0则两基因之间存在连锁不平衡。
D的绝对值大小反应了连锁程度大小。
D值经过标准化为r2(r的平方),也称LD系数,取值范围在0~1。
D是根据每个基因的频率计算得出,不能用于基因对之外的比较。
为了能够在不同基因对之间比较基因连锁程度的大小,提出了D':
D'=D/Dmax
当D’=0,r2=0时,处于完全连锁平衡状态(完全不相关);
当D’=1,r2=1时,处于完全连锁不平衡状态(完全相关)。
一般而言,两个位点在基因组上离得越近,相关性就越强,LD系数就越大;反之,LD系数越小。
这个规律通常用LD衰减图来呈现。LD衰减图是利用曲线图来呈现基因组上分子标记间的平均LD系数随着标记间距离增加而降低的过程。
通常驯化程度越高,选择强度越大的群体,LD衰减速度越慢。
驯化选择会导致群体遗传多样性下降,位点间的相关性加强。
群体结构与亲缘关系
群体结构:群体水平大尺度遗传差异,亚群水平等位基因频率差异,不同祖先来源,个体间亲缘关系,家系等不同的群体结构。
基因不能完全表现于表型,且某些个体之间存在亲缘关系,因此需将群体结构与亲缘关系矩阵一并考虑,才能使SNP与表型的关系更准确。
群体结构对GWAS的影响:会导致标记间的非连锁关联,进而导致关联分析结果出现假阳性。
群体结构分析
主成分分析(Principal Component Analysis, PCA)
通过正交交换将一组可能存在相关性的变量转换为一组线性不相关的变量,PCA分析展示比较能区分群体的2-3个主成分。
基本思想:设法将原来众多的具有一定相关性的变量(标记)重新组合成一组较少个数的互不相关的综合变量(主成分)。
系统进化树
表示生物的进化历程和亲缘关系,基于不同算法可以构建NJ树(MEGA)、ML树(RAxML)、贝叶斯树(ExaBayes)等。
structure
反映遗传变异在物种或群体的分布,推断群体数目,判断某个体属于哪个群体,基于不同算法的分析软件有STRUCTURE、ADMIXTURE、fastSTRUCTURE、TeraStructue等。
原理:将大群体分成n个服从哈迪温伯格平衡的亚群,将材料归入各亚群,计算其基因组变异源于每个亚群的可能性。
可能性用Q值表示,Q值越大则材料来源自这个亚群的可能性越大。
不同数量亚群的划分对于不同的CV值(coefficient of variation,变异系数),最小CV值对应的为最佳亚群数。
遗传关系矩阵
包括血缘,共同祖先及其他共同特征的关系,可以根据系谱关系、标记基因型(AA、Aa、aa)、标记欧氏距离(ED值)等方法推断,MLM可以作为协方差控制假阳性。