TE注释结果不会看?小果教你!
尔云间 一个专门做科研的团队
欢迎点赞+收藏+关注
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)

在本文中,小果将向大家介绍如何读懂TE注释结果(理解EDTA的使用和输出 问答 ·欧舒君/EDTA 维基 ·GitHub)。
首先打开我们的输出结果目录:

文件比较多,我们重点看以下几个文件,首先看一下GFF3文件:
1.
此文件仅包含结构完整的 TE,包括基因组中的LTRs, TIRs, 和Helitrons. 由于 TE(插入到另一个 TE)的嵌套性质以及错误注释,此文件中的条目可能重叠。
2.
此文件包含结构完整和碎片化的TEs,并代表全基因组TE注释,可以说上一个文件是该文件的子集。

每一列包含了以下信息:
seqid:序列的ID
source:注释来源
sequence_ontology:注释类型
start:元素的起始位置(以1为起点
end:元素的结束位置。
score:注释的可信度或置信度,300 用于过滤掉低置信度匹配项
strand:元素所在的链,可以是 "+"(正链)或 "-"(负链)
phase:GFF3 格式要求的阶段划分信息,此字段填充为.
attributes:元素的注释信息,包含元素的ID、名称、分类和同源性等信息
其他文件:
摘要文件,考虑了重叠的注释,并对 TE 长度和拷贝数进行了总结
放一部分截图,结果很清楚了:

Class列列出了TE的类别信息;
Count列表示该类别下所有TE元素在样本中出现的次数总和;
bpMasked列即被遮蔽的碱基对数量;
%masked列表示被遮蔽的碱基对所占比例。
“--”表示该类别下没有发现任何TE。
total interspersed行表示整体统计结果,显示了所有TE类别的总和。
好啦,通过小果的介绍,有没有看懂了呢?
欢迎使用:云生信 - 学生物信息学 (biocloudservice.com)

“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。