【ASTER实战论】03.最大简约法与长枝吸引

台本:
观前提示,本视频虽为科普但仍有一定观看门槛,主要适合科研中需要构建系统发育树的研究方向为分类学或生物信息学且有一定基础的同学。
本视频主要说明为什么夜羽蝶不推荐用最大简约法建树。
先叠甲,夜羽蝶见识浅薄,如有理解错误,请多包涵。
继续叠甲,本视频及本系列所有内容均假定数据符合中性进化假设,并不做任何哲学讨论,如若无法接受此假设,可直接退出本视频。
All models are wrong, but some are useful。
在实用层面上,若想否定某个假说,需要先提出更合理的假说。
回到正题,中性进化假说假定一个碱基变到另一个碱基的频率和变回来的频率相同。
这并不意味着每种碱基的出现频率一定相同。
当然中性进化假说和自然选择天然冲突,所以应该尽量避免使用外显子建树。
不过要不是没钱用三代测序,谁会只对基因重测序呢,唉。
想了解最大简约法,我们首先需要理解Average Nucleotide Identity,也就是A-N-I。
A-N-I指两个序列间相同碱基的比例。
如图所示的两个序列,其长度为8,相同碱基数量为4,所以A-N-I等于50%。
注意,A-N-I有时候会很反直觉。
例如a变异为b,b又变异为c。
如果a和b之间的A-N-I是99%,b和c之间的A-N-I也是99%,那么a和c之间的A-N-I约98%。
如果a和b之间的A-N-I是98%,b和c之间的A-N-I也是98%,那么a和c之间的A-N-I约96%。
但是,如果a和b之间的A-N-I是25%,b和c之间的A-N-I也是25%,那么a和c之间的A-N-I是大约25%。
毕竟a和c之间的A-N-I不可能是负50%嘛。
在Jukes Cantor模型下,a,b,c间的A-N-I会符合这的公式,我在这里不做展开。
不过,值得注意的是,完全随机的两个序列间也有约25%的A-N-I。
最大简约法的目的在于找到一个拓扑结构和所有中间节点所对应的序列,使得所有枝所对应的两个节点间A-N-I之和最大化。
夜羽蝶不推荐用最大简约法建树因为大佬Joseph Felsenstein提出,对于某些系统树,只要序列足够长,最大简约法一定会给出错误结果。
强调一下,是一定会给出错误结果。
在这篇文章中,Felsenstein提出了著名的Felsenstein树,Felsenstein树现在是测试系统发育树建树软件的试金石。
图中就是一个Jukes Cantor模型下极端的Felsenstein树的例子。
a和b的枝长非常长,c和d以及e和f之间的距离非常短。
对Felsenstein树使用最大简约法会使得a与b成为姊妹,也就是所谓的长枝吸引。
为了更加简明地描述长枝吸引的原因,我需要进一步简化模型,我现在假设序列中只有A和C,各占50%。
因此,a和b对于的枝所对应的A-N-I也微微大于50%。
因为碱基只有A和C,所以序列比对中每列无非十六种情况,如图所示。
其中c和d的碱基不同的情况极少出现。
因为a,b,和c几乎可以随便排列组合,所以c和d相同的八种情况频率各在12.5%左右。
我们忽略频率几乎为0的八种情况。
而且我们发现频率在12.5%左右的八种情况是对称的,所以其实我们只需考虑四种情况。
甚至因为这四种情况频率大致相同,我们甚至可以等效假设序列长度就是四,具体序列如图所示。
对于长度为四的序列,我们很容易建立最简约树,如左图所示,此时Parsimony为425%。
然而,如右图所示的真实历史反而Parsimony仅为400%。
所以,对于右图所示的树,最简约法一定会给出左图的错误结果,这就是所谓的长枝吸引。
今天的内容就到这里啦,如果有建树需求的同学欢迎加入ASTER系统树软件群。
群里有ASTRAL和ASTER系列的开发者,Phylo-suite的开发者,TB-tools的开发者,以及很多热心的同学。
大家一起学习,一起成长。