TE注释结果不会看？小果教你！

2023-09-15 10:29 作者:小云爱生信 0人读过 | 我要投稿

尔云间一个专门做科研的团队

欢迎点赞+收藏+关注

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

（56线程，256G内存，个人存储1T）

在本文中，小果将向大家介绍如何读懂TE注释结果（理解EDTA的使用和输出问答 ·欧舒君/EDTA 维基 ·GitHub）。

首先打开我们的输出结果目录：

文件比较多，我们重点看以下几个文件，首先看一下GFF3文件：

此文件仅包含结构完整的 TE，包括基因组中的LTRs, TIRs, 和Helitrons. 由于 TE（插入到另一个 TE）的嵌套性质以及错误注释，此文件中的条目可能重叠。

此文件包含结构完整和碎片化的TEs，并代表全基因组TE注释，可以说上一个文件是该文件的子集。

每一列包含了以下信息：

seqid：序列的ID

source：注释来源

sequence_ontology：注释类型

start：元素的起始位置（以1为起点

end：元素的结束位置。

score：注释的可信度或置信度，300 用于过滤掉低置信度匹配项

strand：元素所在的链，可以是 "+"（正链）或 "-"（负链）

phase：GFF3 格式要求的阶段划分信息，此字段填充为.

attributes：元素的注释信息，包含元素的ID、名称、分类和同源性等信息

其他文件：

摘要文件，考虑了重叠的注释，并对 TE 长度和拷贝数进行了总结

放一部分截图，结果很清楚了：

Class列列出了TE的类别信息；

Count列表示该类别下所有TE元素在样本中出现的次数总和；

bpMasked列即被遮蔽的碱基对数量；

%masked列表示被遮蔽的碱基对所占比例。

“--”表示该类别下没有发现任何TE。

total interspersed行表示整体统计结果，显示了所有TE类别的总和。

好啦，通过小果的介绍，有没有看懂了呢？

欢迎使用：云生信 - 学生物信息学 (biocloudservice.com)

“生信果”，生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程，以及基于R的分析和可视化等原创内容，一起见证小白和大佬的成长。

标签：

TE注释结果不会看？小果教你！的评论 (共条)