【ASTER实战论】01.串联法与并联法

台本,很多地方为了发音故意打错,懒得改了凑合看。
观前提示,本系列视频极为硬核,请谨慎观看。
欢迎来到ASTER实战论,本系列视频主要讲解如何用ASTER系列工具构建系统发育树以及分享建树小技巧,非常适合科研中需要构建系统发育树的研究方向为分类学或生物信息学且有一定基础的同学。
本系列视频的目的有两个,一是为被建树淹没不知所措的同学解惑。
二是证明夜羽蝶真的是知识区的up主!
本视频主要讲解系统发育树构建的两种主要流派:concatenation method串联法又称super matrix法,和coalescence method并联法又称super gene法的区别。
首先是串联法,故名思议,就是吧所有基因的多序列比对横向串起来形成一个超级矩阵,然后从这个超级矩阵推测系统发育树的方法。
很多经典的maximum parsimony最大简约法,maximum likelihood最大似然法,Bayesian method贝叶斯法的工具都是属于串联法。
其中代表性的工具有RAX-M-L,IQ-tree,以及Fast-tree。
需要注意的是,很多传统的串联法都是使用建基因树的方法来建物种树,这些方法忽略了一个重要的事实。
那就是碱基序列重组会导致染色体不同位置的演化历史并不完全相同。
尤其是在deep coalescence深聚结,也就是ILS不完全谱系分选很普遍时,忽略不同位置的演化历史的差异会导致非常严重的后果。
早在2014年,Roch and Steel就在数学上证明了对于某些系统发育树,如果忽略演化历史的差异,无论用多少基因,多长的基因组序列建树,都得不到正确的系统发育树。
甚至有可能,基因越多,序列越长,错得越离谱。
这点在同年Jarvis et al发在科学杂志上的鸟类基因组文章中就有体现。
所以,不管是理论还是实践,无数的先人告诉我们:
不要用RAX-M-L建物种树。
不要用IQ-tree建物种树。
不要用Fast-tree建物种树。
当然,并不是说所有串联法的工具都不能用来建物种树。
SVD-Quartets就是一个针对ILS设计的物种树算法。
同样,我们ASTER组的MASTER同样也是针对ILS设计的物种树算法。
SVD-Quartets和MASTER之间孰优孰劣以及各自的优势区间我们留到以后再讨论。
讲完了串联法,我们再讲讲并联法。
并联法,准确的来说是聚结法,是针对ILS开发的方法,这种方法首先建立基因树,然后从基因树推断最有可能的物种树。
并联法的代表就是ASTRAL。
ASTRAL的原理基于2010年Allman et al发表的一个定理。
对于只有四个物种的物种树,其基因树中最常见的拓扑结构最有可能就是物种树的拓扑结构。
注意,这个定理只对只有四个物种的物种树才成立,对有五个物种的物种树都不成立!
ASTRAL的基本理念就是找到一个目标物种树尽可能满足对于每四个物种,其在目标物种树的拓扑结构正是基因树中最常见的拓扑结构。
所以,即使ILS非常频繁,只要有足够多基因树,且保证基因树都是准确无误的,那么你用ASTRAL肯定能得到正确的物种树。
讲到这里,聪明的同学应该发现了一个盲点,怎么能保证基因树都是准确无误的呢?
的确,事实上,基因树都是由RAX-M-L,IQ-tree,或Fast-tree构建的,而且为了保证构建基因树的序列没有过多的重组,这些序列长度都不会很长,这反而降低了基因树的准确性。
这也是ASTRAL的最大缺点。
好在,我们ASTER组的weighted ASTRAL很大程度上弥补了这个缺点。
weighted ASTRAL的思想非常简单,ASTRAL仅仅只用了基因树的拓扑结构信息,这导致ASTRAL无法区分高质量的基因树和低质量的基因树。
weighted ASTRAL通过利用基因树的枝长和支持度信息,给予不同的基因树,确切的来说,给予每个基因树的每四个物种,基于其质量好坏的权重。
这大大提高了weighted ASTRAL的准确性。
所以,我呼吁。
能用weighted ASTRAL一定要用weighted ASTRAL!
能用weighted ASTRAL一定要用weighted ASTRAL!
能用weighted ASTRAL一定要用weighted ASTRAL!
重要的事情说三遍!
当然,本视频的内容并不是完全充分的。
例如,本视频就没有介绍距离法,鼎鼎有名的NJ法就是距离法。
本视频也没有分析HGT水平基因转移对各种方法的影响。
所以,如果有建树需求的同学欢迎加入ASTER系统树软件群。
群里有ASTRAL和ASTER系列的开发者,Phylo-suite的开发者,TB-tools的开发者,以及很多热心的同学。
大家一起学习,一起成长。