欢迎光临散文网 会员登陆 & 注册

TE注释结果不会看?小果教你!

2023-09-15 10:29 作者:小云爱生信  | 我要投稿

尔云间  一个专门做科研的团队

欢迎点赞+收藏+关注

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

(56线程,256G内存,个人存储1T)



在本文中,小果将向大家介绍如何读懂TE注释结果(理解EDTA的使用和输出 问答 ·欧舒君/EDTA 维基 ·GitHub)。

首先打开我们的输出结果目录:

 


文件比较多,我们重点看以下几个文件,首先看一下GFF3文件:

1.

此文件仅包含结构完整的 TE,包括基因组中的LTRs, TIRs, 和Helitrons. 由于 TE(插入到另一个 TE)的嵌套性质以及错误注释,此文件中的条目可能重叠。


2.

此文件包含结构完整和碎片化的TEs,并代表全基因组TE注释,可以说上一个文件是该文件的子集。


每一列包含了以下信息:


seqid:序列的ID

source:注释来源

sequence_ontology:注释类型

start:元素的起始位置(以1为起点

end:元素的结束位置。

score:注释的可信度或置信度,300 用于过滤掉低置信度匹配项

strand:元素所在的链,可以是 "+"(正链)或 "-"(负链)

phase:GFF3 格式要求的阶段划分信息,此字段填充为.

attributes:元素的注释信息,包含元素的ID、名称、分类和同源性等信息

其他文件:

摘要文件,考虑了重叠的注释,并对 TE 长度和拷贝数进行了总结

放一部分截图,结果很清楚了:



Class列列出了TE的类别信息;

Count列表示该类别下所有TE元素在样本中出现的次数总和;

bpMasked列即被遮蔽的碱基对数量;

%masked列表示被遮蔽的碱基对所占比例。

“--”表示该类别下没有发现任何TE。

total interspersed行表示整体统计结果,显示了所有TE类别的总和。

 好啦,通过小果的介绍,有没有看懂了呢?

 

欢迎使用:云生信  - 学生物信息学 (biocloudservice.com)



“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。


TE注释结果不会看?小果教你!的评论 (共 条)

分享到微博请遵守国家法律