欢迎光临散文网 会员登陆 & 注册

和小果学习如何一键转换gtf和gff3文件

2022-12-30 11:39 作者:小云爱生信  | 我要投稿

尔云间  一个专门做科研的团队

原创 小果 生信果

接触过基因组和转录组的小伙伴肯定对这两个格式不陌生吧,这是基因组的注释文件,但比较烦人的是有些时候需要gtf格式,有时候需要gff3格式,所以需要一个方法,可以在这两种格式之间相互转换。


先来了解一下这两种格式


Gff3全称General Feature Format Version 3

存储序列结构信息的一种数据格式。序列结构就是一个scaffold或者染色体上面每个位置都是什么序列元件。


GFF每一行代表一个序列元件(以#为开头的注释行除外),一行9列9个属性,必须tab分割,属性为空用“.”代替。


关于gtf文件

当前所广泛使用的GTF格式为第二版(GTF2),它主要是用来描述基因的注释。GTF格式有两个硬标准:


根据所使用的软件的不同,feature types是必须注明的。


第9列必须以gene_id以及transcript_id开头。GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征)


转换的话需要在linux下进行,Cufflinks里面的工具gffread


#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

上面这两步是对gff3和gtf格式的文件进行相互转换。

gffread genome.gff3 -g genome.fa -x  cds.fa
gffread genome.gff3 -g genome.fa -y  protein.fa
gffread genome.gff3 -g genome.fa -w  transcripts.fa

这几步就是可以根据基因组序列文件和基因组注释文件得到cds文件,蛋白序列和转录本序列。


最后提醒一下大家,在linux系统下运行软件,要么前面加上路径,要么把软件写进环境变量,否则是运行不了的哟。


好了,这就是今天的主要内容了,其实挺简单的,小伙伴们有什么问题就和小果讨论吧。

推荐阅读



shengxinguoer

生信果


生信硬核知识解答

和小果一起学生信


和小果学习如何一键转换gtf和gff3文件的评论 (共 条)

分享到微博请遵守国家法律