秋天来了,不用MEGA种棵树吗?

秋天来了,不用MEGA种棵树吗?
一、什么是系统发育树?
演化是指,生物特征代代相传,略有改变。即生物在形态结构、生理行为等方面发生的世代间缓慢可遗传的改变。其中不包含“进步”的意味。
系统发育树(演化树)是指,用分支图像概括物种间的远近亲疏,从而反映物种间的演化关系的可视化图片。系统发育树包括分子树与物种树。
1.分子树:
依据一个或多个基因或蛋白序列构建的反映分子系统演化的发育树,如16/18S rRNA、血红蛋白、磷酸果糖激酶等。
分子树并不必然反映物种亲缘关系的远近。物种间亲缘关系过近或过远都不利于建树。
2.物种树:
反映物种实际种系的发育树。基因组水平(相信我不要轻易在笔记本上跑基因组)。

二、如何看系统发育树?
表1 系统发育树的结构


三、如何绘制系统发育树?
1.MEGA——Molecular Evolutionary Genetics Analysis
(1) 百度MEGA官网下载 or 公众号后台回复工具,自行下载MEGA7.0,据说现在已经出到MEGAX了,确定不是某疯?不同版本的MEGA功能上其实大同小异,以下未经注明均使用MEGA7.0。
(2) 所谓MEGA主要三大看点:
①Sequence Analyses——序列分析
②Statistical Methods——统计方法
③Powerful Visual Tools——可视化
2.处理流程
(1) 导入fasta格式文件
(2) 多序列比对——生成meg格式文件
(3) 绘制发育树——生成newick格式文件
3.具体步骤:以分子树为例
(1) 序列的获得:NCBI
所需序列文件储存格式为fasta,这是一种基于文本,用于表示核苷酸或氨基酸序列的文件格式。氨基酸或核苷酸均用单字母表示,允许在序列前添加注释。MEGA中,File→Edit a Text File提供fasta格式编辑界面。
一条有效的fasta格式序列包括两行,第一行是序列注释,第二行是序列信息,具体编辑格式如下:
①第一行必须以“>”开头,表示下一个序列的开始与上一个序列的结束。
②第二行为序列信息,允许空格、换行、空行等,直到下一个大于号结束。
例如:通过NCBI获取以下12个物种的MYB转录因子mRNA序列的fasta格式文件。

(1) 多序列比对:Align
Align→Edit/Build Alignment→create a new alignment,对比序列选择DNA,将并归完成的fasta格式文件导入其中(直接拖入或在M7:Alignment Explorer中打开)。
Ctrl+A→Align selected block by ClustalW(图标也是一个W),默认选项对比。对比结束后删掉首尾没有对齐的碱基。
Data→Export Alignment→MEGA Format,生成meg格式文件。
(2) 发育树构建:phylogeny
MEGA→phylogeny提供5种建树方法,具体算法笔者表示暂不详述(不懂啊啊),总结起来应用时大概下面几种类型:
①距离法:通过比较待测物种,依据演化距离模型,推导各分类群间的距离矩阵,据此建树。
非加权分组平均法:UPGMA
最小演化法:ME
邻位归并法:NJ(通常适用于种内)
②特征法:基于序列差异而非演化距离建树。
最大简约法:MP
最大似然法:ML(通常适用于种间)
(3) 发育树评估:bootstrap
理论上要求自展值bootstrap为1000,自展值大于95%时表示可信。
实际上当相似度大的物种比较时,通常认为自展值大于50%时可信,小于50%时隐去。
当低自展值靠近节点时,可能由于基因相似度太高难以区分;
当低自展值靠近根时,可能由于基因相似度太低难以区分。
(4) 发育树美化:iTOL
丑树生成之后,File→Export current tree(newick)→Export→save,将构建的发育树保存为newick格式。
然后网页打开https://itol.embl.de/,注册账号并登陆后,My tree→Upload tree flies上传保存的树文件,一阵卡顿后,可进行美化。
以下为对比图,当笔者学会如何编写注释文件后,估计能有质的提高。Orz......以下也可以看出物种树与单基因分子树之间巨大的差异……对这就是反例!好好学习……


