【电子笔记】基因组共线性分析简单流程
* 本电子笔记内容仅用于记录个人学习过程并为将来失忆的自己提供参考,欢迎讨论指正。
主要使用MCScanX软件进行基因组共线性分析,以及后续下游分析。
原始数据:
基因组蛋白质序列 .faa文件
基因组注释信息 .gff文件
p.s.据说一次最多只能做5个物种的共线性比较,需注意。
基本使用流程:
0. 原始数据处理
MCScanX读取的gff文件与一般的九列gff文件不同,是只有四列的缩略版本。每一列内容分别是:染色体编号、基因编号、基因起始位置,基因终止位置(以tab分割)。
可使用awk命令进行转换:
通常同时进行组内和组间的共线性比较,方便后续下游分析,因此需先将基因组文件和注释文件合并:
p.s.其实也可以一对一进行共线性比较,所以faa文件不一定需要合并。但是gff文件必须要合并,否则后续MCScanX步骤得到的collinearity文件会没有结果。
1. BLASTP联配
这里使用速度更快的diamond:
2. MCScanX分析
需要.blast文件和.gff文件。注意这两个文件名需要一致且放在同一目录下,否则会报错。

3. 后续分析
MCScanX自带了一些作图java脚本,但是做的图比较粗糙。如果后续学了怎么用别的软件作图再补充。
自带的几个作图脚本需要.ctl文件指定作图大小和染色体参数,默认.ctl文件位于MCScanX/downstream_analyses/文件夹内,共有五个。(bar.ctl, circle.ctl, dot.ctl, dual_synteny.ctl, family.ctl)
1) dot_plotter 点阵图,最直观的共线性可视化结果

2) circle_plotter 很漂亮的circos图

3) bar_plotter 直观展示参考基因组在目标基因组上的共线性组成

4) dual_synteny_plotter 感觉和circos图差不多,但是不太好看

可能会补充一些其他的共线性作图方案。
参考文章:
http://chibba.pgml.uga.edu/mcscan2/documentation/manual.pdf(为啥这两天MCScanX官网一直登不上去...)
https://blog.csdn.net/u012110870/article/details/102804418
https://blog.csdn.net/hs6605015/article/details/108887241
希望再也不要碰到102条染色体的基因组了,我真的会谢。