教程 | 基因家族扩张与收缩分析


介绍
#1
■ 在比较基因组分析,对直系同源基因分析后,往往接着就是基因家族扩张收缩分析。确定生物间表型差异背后的遗传变化和导致变化的进化压力,是进化生物学的主要目标之一。基因组分析工作已经揭示了物种间基因家族的成员频繁获得和丢失。基因家族规模的变化可能有利、有害或者中性,但基因家族的数量变化也是形成物种特异的重要原因之一。
#2
■ 推荐一下普遍使用的软件CAFE (Computational Analysis of gene Family Evolution)。小编永远支持具体问题还是具体分析,生物分析软件也只是辅助我们获得一个预测性的结果。
#3

■首先,CAFE由Matthew W. Hahn 课题组在2005年提出评估基因家族进化速度和模式的模型,2006年CAFE软件面世,2013年推出CAFE 3软件,2020年更新CAFE 5软件。(可见该软件还是一直更新)
#4
■ 摘一段CAFE5(Bie et. al , 2021)简短解释CAFE工作原理:
The probabilistic model adopted in CAFE was introduced by Hahn et al. (2005); it uses a random birth and death process to model gene gain and loss along each lineage of a phylogenetic tree. In order to make inferences over a whole phylogeny, a probabilistic graphical model (Lauritzen, 1996; M. I. Jordan, manuscript in preparation) is used to calculate the probability of transitions in gene family size from parent to child nodes in the phylogeny.Using the graphical models machinery, one can draw inferences on the gene family size for all ancestral species.
#5
■ CAFE 应用随机出生死亡的模型,模拟一个系统发育过程基因家族得失。为了推断系统发育过程,可计算由父节点到子节点的基因家族大小转移率,也可推断祖先物种的基因家族大小。
安装
准备文件
需要Orthofinder的结果文件
可以再翻查以前的推文
Orthofinder下篇
Orthofinder上篇
需要时间分歧树文件
也可以翻查过去的mcmctree推文
整理输入文件
GeneCounts.tsv
查看分歧树
需要分歧树的节点时间,并不需要置信区间。
runcafe.bash
输入的树文本内不要又空格
load参数
-i 输入的数据文件
-t 设置程序运行的线程数,默认为 8
-l 设置输出的日志文件,默认标准输出
-p 设置 p_value 的阈值,默认为 0.01
运行
查看文件内容
提取更详细的扩张收缩信息
使用安装包里的python脚本。如果是conda安装的,可以从git-hub中下载该部分内容;
画树
-i 输入的信息文件
-y是对应输入文件的标题选择展示 可选:Expansions/Contractions/Rapid
-t 是输入树文件 (在cafe输出文件能找到)
-d 是树的结构文件(在cafe输出文件能找到)
-o 命名,脚本默认是png;
不过由于是由python来写,还是能修改脚本的命令调整输出为svg
输出的图展示


始终还是输出的不够好看(无法直接发文章),不过没关系总有方法进行美观的。