欢迎光临散文网 会员登陆 & 注册

【群体基因组学】基因流与D测验课程纪要-->华大基因学院春季大师班

2020-05-13 10:40 作者:越努力越高级  | 我要投稿

华大科技->基因流与D测验课程纪要


时间 | 202059日 13:00 ~14:00

主办 | 华大科技春季大师班网络课程

主讲 | 汪鸿儒 -> 加州大学伯克利分校博士后


 课程主要内容

1. 课程标题:《基因流与D测验》

2. 课程内容要点:

以尼安德特人基因组研究项目为例,主要讲解以下4方面:

1)基因流的概念

2)传统群体遗传学方法解释基因流时存在的问题

3)D测验的原理、应用及一些衍生方法

4)D测验分析常用软件

3. 课程背景知识

1)人类系谱发生

达尔文在物种起源文稿中唯一一张图片,以一种非常简洁且美妙的方式去概括了物种起源最核心的思想,那就是地球上所有生命都是以一种树的结构联系在一起的,并且他们有一个共同的祖先。这张图也为后续的研究者提供了一个研究框架,如何去重构这样一颗生命之树,地球上的不同物种分别处在树上的什么位置,这个思想在如今的演化生物学领域仍然是一个核心的框架。随着研究的进步,特别是近些年群体基因组学的研究使人们认识到物种的形成并不是一个简单的分叉,在非常近缘物种之间有着非常广泛而复杂的基因流

在人类的系谱发生关系中,见下图。最左边是黑猩猩这一枝,右边一群全都是现代人以及灭绝古人类,黑猩猩在差不多500W年前和人类分开,人类这一枝相对繁盛但是很多都已经灭绝了,人们知道他们的存在主要是通过化石的证据。让人最为关心的是其中和人类关系最近的一枝:尼安德特人和人类大约在80W年前分开,但是在3-5W年前消失了,可以理解为是我们人类的丢失的堂兄弟,这个项目是用尼安德特人的化石进行全基因组测序,试图回答尼安德特人对现代人基因库有没有遗传贡献。

 

2)不完全谱系分选(ILS)

 

不完全谱系分选,是众多基因流研究中最重要的干扰因素之一,很多被理解为是基因流的信号往往是由不完全谱系分选产生的。具体是,假设有4个物种分别是A,B,C和Outgroup,它们的系统发育关系是,AB是最近的姊妹群,C是它们的外群,Outgroup在更外面,上图是它们的物种树。

如果在基因组上任意选一个位点,构建进化树,我们预期基因树和物种树是一样的,应该上图中左下方的树。但是,往往发现在基因组上构树有些地方会呈现出右下方这种情况:BC聚在一起,A反而是他们的外群。发生这种情况很可能是一个不完全谱系分选的结果。

这种情况是怎么发生的呢?就是在ABC三个物种分化之前,在某一个位点具有多态性,比如有a,b两种不同的等位基因,然后随着C物种分化出去,两种变异有一种在C当中可以逐渐固定。但是该等位基因在AB的祖先中继续以多态的形式存在,随着AB分化,这两种等位分别以随机的方式分别进入到AB当中的一个,这个时候,就会发现A和B会有一个,在这里的例子中就是BC共享相同的变异,这样构出来的树会显示BC聚在一起,如果仅凭树很容易得出BC之前有基因流的情况发生,但其实这是一个不完全谱系分选产生的一个信号。

4. 主要内容分析

1)基因流的概念

一些个体从一个群体迁移到另一个群体会把某些基因带到新的群体从而产生基因流动,基因在群体中的运动,这就是基因流。基因流是影响群体内部和群体之间遗传变异程度的重要因素。它们把自身的基因带到新的群体中,使新的群体的基因组成、基因频率等都有较大的变化。基因在群体间流动的水平越大,群体就会越均匀或普遍相似,受限制的基因流使群体间发生分化,因为每个群体中都会或多或少的独立发生适应和遗传漂变。群体间不发生基因流可能是因为生殖隔离而没有相互杂交,或因为地理隔离而无法杂交。基因流和突变是把新的遗传因素带到某一群体仅有的两种方式。

 

2)群体基因组研究方法局限(系统发生树、PCA、Structure)

      方法一(系统发生树):进化树的特点是可以很好的给人一种分群的概念,给人知道不同人群之间的聚类关系,但是并不能直接反应基因流的信息。 

      方法二(PCA):PCA是一种非常普遍的方法,除了在群体遗传学的应用,在很多其他领域也有着非常广泛的应用。对一个种群做PCA分析,理论上PCA的结果包含了种群结构的所有信息。但问题是PCA的结果很难有着最直接的生物学解释,往往需要和其他的证据在一起才能帮助人们去理解一个PCA的Pattern到底意味着怎样的种群历史。

举个简单的例子,在PCA的图上,下图和上述树的图是来自同一篇文献,展示的是世界各个地区不同人群的一个群体结构情况,为什么说PCA难以去做解释?

如果在PCA的图上大家看到一串连续的点,到底是应该解释成是两个群体杂交后形成的一种杂种群,还是说表示的是一个正在分化的种群,其实都可以做这些解释得到相同的结果,这是PCA的一个问题。

    方法三(Structure):Structure分析是给定一个K值,会对一个种群分出K种不同的成分,然后,种群中的每个个体都会model成一个或者多种成份。

其中有一种非常流行但是大多数情况下都是错误的的一种解读,大家往往认为如果一个group只含有一种成分那就解读成这个group是一个比较纯的种群,如果一个群体含有两个或多个成分,那就认为是比较纯的种群混杂而成的,将其解读成一个基因流或者说一个混杂的信息,这种解读是错误的。


这里引用了2018年的一篇文章,文章通过数据模拟三种完全不同的种群历史然后提取数据进行做Structure分析,上面三张图是分析结果,高度相似,但是对应的种群历史是截然不同的。

看左边这张,这是大家往往做的最直接的解释,可以看到四个群体有P1、P2、P3、P4,其中P4、P1、P3是没有混杂的群体,他们是先后分化出来的,在近期的时候以一定的比例进行了混杂形成一个新的群体P2,然后做Structure分析可以非常清楚的展示这样的一个情况,也是大家最喜欢做的一种解释。

 

看中间的这一栏,P1,P4先分化出来,然后P3在某个阶段和另外一个群体分化出来,但是另外分化的这个群体进行研究的时候,并没有被取材出来并且这个群体和P1发生了混杂形成了一个新的群体P2,然后取材的时候只取P1,P2,P3,P4拿来做Structure分析,他的结果和左边这个近期混杂的结果是一样的,虽然这个P2里面根本没有P4里面的成分,但是Structure里面还是可以看出来P4的成分在里面。

然后最右边这种情况就更加的极端,还是P2,P3,P4是分别先后分化出来的没有混杂的三个群体,而近期P2有非常严重的瓶颈效应,产生一个新的群体P1,然后对P1,P2,P3,P4分别进行取材分析,可以看到,由于P1经历非常严重的瓶颈效应,导致积累大量的特异的突变或者是基因频率是由于遗传漂变变得特别的极端,所以分析的时候会被单列成一个成分,这个时候P2就会被裂解开成多个成分显示出是个混杂的情况,这个文章非常全面的探讨Structure分析对于群体历史的推断是非常有限的,对基因流的理解也非常有限。

上面讲到的三种方法在做基因流的推测的时候难以给出直接有效的证据,那么有没有方法可以为基因流带来一个非常明确的检测?

3)D测验

最早在尼安德特基因组这个项目中使用,这篇文章在整个领域中具有里程碑意义,既是一个非常重要的科学发现,同时也提出了一系列群体遗传学研究新的方法,在后续的研究中也得到了广泛的应用,是一篇影响非常深远的研究论文。

D测验被运用到蝴蝶基因组的研究,帮助寻找蝴蝶翅膀上拟态的基因渗入,也用于解析非洲鲤鱼的基因流,也运用到南美洲玉米古DNA的研究,用于解析玉米进化早起复杂的生物学史,还有北美洲野兔的毛色伪装,以及欧洲乌鸦之间的基因流情况。

D测验原理:D统计具体工作原理,涉及到4个情景,命名为P1、P2、P3以及O,在这种框架之下,我们感兴趣的问题是,P1,P2中有没有谁和P3有基因交流,如何回答这个问题?

这里采用基因组的数据,在基因组上首先找这样的点,在O中,是一种等位基因allele,在P3这个位置上的群体是另外一种allele。比如说O中,碱基是A,P3可以是TCG;O如果是T,P3可以是ACG,总之,O和P3是不一样的。为了简单的表示,就把O里面的allele称为A allele,把P3叫做B allele,然后同时,要求在P1和P2当中,他们的allele也是不一样的,是呈现多态的。那么就有两种情况,第一种情况是P1是A,P2是B;另外一种情况是P2是A,P1是B。

然后我们就可以找到D统计的一个公式,这个公式是一个分式,分子部分,C是time,数数,就是把4个基因组堆在一块,然后找基因组上具有ABBA和BABA的情况的位置的多少,ABBA的times减去BABA的times,然后把它加起来,分母就是这两个counts的和,最后一除,得到我们的D统计,还有一个非常好记的名字叫做ABBA-BABA Test。

通过计算可以得到一个D值,在没有基因流的情况下,我们可以预期,P1跟P2和P3的关系是同样的,所以这个D值的预期应该是0,如果是大于0的话,那么就表示ABBA的情况比较多,那就显示P3和P2之间的关系,相对于P1更近,如果BABA那就是P3和P1之间的关系更近相对于P2来说,然后要去做一个统计分析,就是看看这个D值是不是显著性的大于0或者小于0,他的做法是通过把基因组切成很多片段,对每一个区间进行算出一个D值,然后得到一个D值的一个distribution,然后通过这个distribution可以得到一个标准偏差,从而算出Z-score来判断显著水平。

D测验好处:

1)是一种非常稳健的方法,不受不完全谱系分选(ILS)的影响。原因是,在没有基因流的情况下,不完全谱系分选也可以产生BABA和ABBA的两种情况,但在这种框架之下,如果没有基因流,可以预计这两种产生的几率应该是一样的,所以在刚才的公式的分母中,一减就会把这部分东西给消除掉。

2)是一种巧妙的方法,对于测序的错误非常robust,为什么?因为这里涉及到4个群体,然后要求O和P3不一样,P1、P2不一样,并且只考虑有两个等位的这样一个SNP位点。所以就导致4个个体当中,呈现出两种多态并且每一种allele至少出现过两次,这样的话就可以排除很多测序的错误,因为大概率不可能在独立两个个体中出现完全一样的相同的错误。

D测验实际例子


把非洲人,亚洲人,尼安德特人以及黑猩猩,放在P1,P2,P3以及O的位置,然后在这种情况下,试图检测非洲人和亚洲人谁和尼安德特人之间有基因交流。算出来结果是,ABBA的pattern是有10W+的snp位点,BABA的pattern差不多有9W多个snp位点,然后用刚才的公式计算出:D值是4.8%左右,Z Score达到9.9,是一个全基因组非常显著的水平。

这个结果最直接的解释是:ABBA的pattern变多了,那就是说尼安德特人和亚洲人之间,相当于非洲人来说,share更多的allele。最直接的结果就是尼安德特人和亚洲人之间有着基因交流。

基因流的方向:

 

换用两个不同的非洲人AFR进行同样的分析,这两个结果之间如果基因流是从尼安德特人到现代人,那么结果应该是一样的;如果基因流是从现代人到尼安德特人,结果会不一样。

原因是,假设所用的第二个AFR和现代人之间非常接近,那么现代人贡献给尼安德特人的那部分在AFR中也可以找到,会导致D统计算出来会非常的不显著,接近于0。

基因流贡献多大?

通过公式演变可以计算。原理:因为尼安德特人对走出非洲人有贡献,但是真正贡献的祖先是不在了,文章中利用多个尼安德特人基因组和真正做贡献的尼安德特人关系的远近不同做D统计分析,呈现出来一种差异,利用这种差异可以计算基因流的成分。

D测验使用注意:


基因流在基因组上哪些位置?


D测验软件:AdmixTools、ANGSD

5. 总结

1)D测验是一个明确展示基因流信息的测验

2)D测验之后衍生方法:基因流方向、贡献、位置等

3)灵敏但是也受到一些因素影响

 

  问及回答

问题1:D和F4的区别?为什么要区分这两个统计量?

þ 两者最早是又同一实验室提出,F4最早发表于2004年印度人群文章,D最早在尼安德特人基因组中提出,两者用于基因流检测是等同的,用该软件AdmixTools可以计算两者,两者分子完全一样,分母存在区别。D统计的分母是ABBA和BABA两者之和,F4是所有可能性位点,但是最后算基因流时所关心的是Z-score,两者计算出的结果是一样的。

问题2:D检测只能做单向的基因流分析么?如果两者有相互的基因交流能检测出来么?

þ 不能,只能进行单向的检测,给出一个主要方向,大的信号会盖掉小信号。

问题3:D检测P1P2P3三者之间的远近要求?

þ 可以做不同物种,如果物种差别特别大,在生信分析技术上会出现误差。

问题4:RAD数据可以使用那两个软件么?

þ 只要可以转换为软件使用格式应该就可以用。

问题5:基因流贡献度是怎么计算的?

þ 具体自己推公式。

问题6:Outgroup的选择要求?

þ 要确定一定是外群。

问题7:D检验适应于做中国人内部的基因流、基因差异比较小的群体?

þ 可以

问题8:每次只能分析3个群体么?多个物种怎么办?

þ 要进行多次试验,不断测试。

问题9:怎么确定哪些基因可以进行D测验?

þ D测验是针对全基因组的分析,不是针对某个基因。

问题10:D检验和TreeMix的区别和优劣势?

þ TreeMix可以使用多个物种,但是也是只能做一个辅助证据。


【群体基因组学】基因流与D测验课程纪要-->华大基因学院春季大师班的评论 (共 条)

分享到微博请遵守国家法律