【ASTER实战论】02.针对数据挑选合适的建树软件——知己知彼方能百战不殆

台本,凑合看。
观前提示,本系列视频极为硬核,请谨慎观看。
欢迎来到ASTER实战论,本系列视频主要讲解如何用ASTER系列工具构建系统发育树以及分享建树小技巧,非常适合科研中需要构建系统发育树的研究方向为分类学或生物信息学且有一定基础的同学。
本视频主要讲解如何根据数据挑选最合适的建树软件。
知己知彼方能百战不殆。
先叠甲,毕竟夜羽蝶属于ASTER课题组,且见识浅薄,如有偏颇或未提及某些软件,请多包涵。
状况一:我好懒啊,能不能随便帮我挑一个建树软件啊?
好好好,那就用MASTER-site吧,用法和RAX-M-L,IQ-tree,Fast-tree差不多,但设计时考虑了不完全谱系分选,所以更能保证建树质量。
其实SVD-Quartets也很好用,但你们懒人肯定不会看PAUP的手册对吧。
对于用pipeline包的同学,这里推荐一下Phylo-suite,Phylo-suite集成了ASTER系列的很多工具,MASTER-site也会很快会被整合进包。
您说是不是啊at张东老师?
对于某些用MEGA包的同学,我必须吐槽一下。
都21世纪了,别再用最大简约法建树了,最大似然法我就忍了,最大简约法是在搞毛啊!
您觉得我说的对吗,at老晴。
状况二:我的基因绝大多数是多拷贝的,我是不是必须先找到只存在直系同源的Ortholog建树?
不要这么做,你只需要把同源序列的基因家族树gene family tree建起来,后面的交给ASTRAL-Pro就可以了。
在这里顺便提醒一下,虽然说用一般的ASTRAL或weighted ASTRAL也可以建多拷贝的树而且被数学证明是正确的,但请不要这么做。
对于ASTRAL-Pro来说,基因重复是信号,是signal。
但对于ASTRAL和weighted ASTRAL,基因重复是噪音,是noise。
为了信噪比,为了不浪费花钱测出来的序列,别再用ASTRAL和weighted ASTRAL建树了!
顺便吐槽一下,只有单拷贝基因的话给我用weighted ASTRAL,别再用ASTRAL-Pro了。
ASTRAL-Pro的Pro是指旁系同源Paralog和直系同源Ortholog。
不是专业版!不是专业版!不是专业版!
只有单拷贝基因的话ASTRAL-Pro和普通的ASTRAL除了支持度以外没有任何区别!
状况三:我的进化树高度不高,我该怎么建树?
首先,我们需要定义一下高度不高。
高度不高是指树高在0.5个nucleotide substitution unit以下的或者不同物种间的碱基序列保守程度A-N-I在50%以上的。
nucleotide substitution unit就是RAX-M-L之类的最大似然法的树高的单位。
进化树高度取决于分化的时间和变异速率。
分化的时间在一亿年以内的例如整个反刍小目,整个新鸟小纲,整个凤蝶总科之类的就很合适。
但变异速率过快的细菌,病毒等另算。
最离谱的是B细胞,变异速度是体细胞的一百万倍!一百万倍!
对于树高不高的情况,推荐同时跑MASTER-site和MASTER-pair,然后看哪个的结果更科学就用哪个,另一个结果扔到附录里。MASTER-site和MASTER-pair的模型条件不一样。MASTER-site的核苷酸替代模型nucleotide substitution model并不是最广义的G-T-R模型,而是退而求其次而用的H-K-Y模型。
H-K-Y模型假设所有的转换速率transition rates相同且所有的颠换速率transversion rates相同。
MASTER-pair虽是G-T-R模型但假设相邻的位点相互独立且变异速率一致。
有条件的也可以跑一下SVD-Quartets,SVD-Quartets一般比MASTER要慢几十倍。
SVD-Quartets是G-T-R模型但假设不同物种的变异速率相同。
唉,世上有个完美的工具就好了。
状况四:我的进化树高度很高,我该怎么建树?
对于树高很高的情况,建议同时用weighted ASTRAL和一般的ASTRAL,然后看哪个的结果更科学就用哪个,另一个结果扔到附录里。
树高很高的话容易得到较高质量的基因树,计算bootstrap或Bayesian支持度后就可以用weighted ASTRAL建物种树了。
这种情况下MASTER系列可能因为信噪比过低而给出离谱的结果,虽然没试过SVD-Quartets怎样但我猜应该类似。
一般来说如果数据中水平基因转移H-G-T很少那么weighted ASTRAL就很靠谱,但如果水平基因转移H-G-T很多,那么你就不该用ASTER系列工具,但退而求其次的话可以用一般的ASTRAL,用ASTER的c++版本,别用原本的Java版本。
c++版本的ASTRAL在物种数量多或基因树中物种缺失率高的情况下准确率高,速度快,内存占用低。
我猜树高很高很有可能存在这两种情况。
如果不知道水平基因转移H-G-T高不高的话,可以试着跑一下c++版本的ASTRAL,加上参数杠u空格2,如果对于大部分枝子,Q1大于Q2约等于Q3,那么H-G-T就不高。
如果大多数枝子Q1和Q2的差距与Q2和Q3的差距差不多大,甚至Q1约等于Q2,那么H-G-T就很高了,甚至可以考虑系统发育网络软件了。
以上是一般情况下的软件推荐,下面进入疑难杂症环节。
状况五:我只有SNP如何建树?
请扪心自问,为什么要将SNP挑出来呢?
相比于用整个基因组建树,并不会有任何时间和内存占用上的提升。
如果坚持用SNP,请用MASTER-site或SVD-Quartets建树,不要用MASTER-pair因为模型不对。
状况六:我每个物种有多个个体该如何建树?
这得看I-L-S高不高了,跑一下MASTER-site,加上参数杠u空格2,如果对于大部分枝子Q1大于0.9就说明I-L-S不高,没必要跑多个个体,反而对于没有对多个个体针对性优化的MASTER和SVD-Quartets有可能有害。
在I-L-S高的情况下用多个个体建树有助于提高MASTER和ASTRAL的准确性。
状况七:我的物种是多倍体且只有unphased数据怎么办?
这种情况下只能用MASTER-site或SVD-Quartets建树。
MASTER-site的用法看ASTER系列的Github。
SVD-Quartets的用法问作者去。
状况八:我的数据量非常小怎么办?
这得看I-L-S高不高了,参照状况六。
如果I-L-S不高,直接用RAX-M-L,如果I-L-S高,要么凑合用MASTER,要么考虑Baysian MCMC法吧。
如果喜欢本视频请转发给实验室的小伙伴。
有建树需求的同学欢迎加入ASTER系统树软件群。
群里有ASTRAL和ASTER系列的开发者,Phylo-suite的开发者,TB-tools的开发者,以及很多热心的同学。
大家一起学习,一起成长。