欢迎光临散文网 会员登陆 & 注册

利用Trimmomatic进行转录组原始数据过滤:小果吐血整理!

2023-10-13 09:09 作者:小云爱生信  | 我要投稿

尔云间  一个专门做科研的团队

欢迎点赞+收藏+关注

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

(56线程,256G内存,个人存储1T)


随着高通量测序技术的发展,转录组测序已经成为了研究基因表达的重要手段。但是,由于实验条件、测序平台等原因,转录组测序数据中常常存在一些噪声,这些噪声会影响我们对基因表达情况的判断。


因此,在进行进一步的差异分析、功能注释和生信分析之前,我们需要对转录组原始数据进行过滤,去除掉低质量的序列和噪声,提高数据的可靠性和准确性。


一、什么是转录组

转录组是指在一个时刻内细胞内转录生成的RNA的总和。与基因组相比,转录组更反映了细胞内基因的表达情况,能够为我们揭示细胞内部的基因调控网络以及基因功能的变化。因此,转录组测序已经成为研究基因功能和基因调控机制的重要手段。


二、为什么要过滤转录组原始数据?

转录组测序产生的原始数据往往具有以下问题:

低质量的序列:由于测序仪器或反应体系等因素的影响,会产生一些低质量的测序序列,这些序列不仅会占用服务器空间和计算资源,也会影响后续的数据分析结果。


读长偏差:由于测序仪器等因素的限制,测序数据中可能存在长度偏差,如头尾序列较短或较长等,这些偏差会对基因表达水平的计算造成影响。


噪声:由于实验条件等原因,测序数据中常常会出现一些异质性,比如SNP(单核苷酸多态性)、INDEL(插入/缺失)等,这些异质性会影响后续的差异分析和功能注释。

因此,我们需要对原始数据进行过滤,去除掉低质量的序列和噪声,提高数据的可靠性和准确性。


三、如何对转录组原始数据进行过滤?

目前,有很多工具可以对转录组原始数据进行过滤。其中比较常用的工具包括Trimmomatic、Fastp和Cutadapt等。下面小果以Trimmomatic为例,介绍如何对转录组原始数据进行过滤。


1.准备工作:仍然是用miniconda安装Trimmomatic

可以看到安装成功,版本为0.39


2. 运行Trimmomatic

对于双末端测序来说,可以运行以下命令:

为了方便理解小果将解释放在下面:

!!!注意:小果高亮的两个文件,在执行命令时要输入正确的文件路径和文件名称。另外因为在实际工作中我们往往需要处理很多数据,比如这次小果准备过滤9个文件,每个.sra文件又转化为了read1,read2两个文件,所以小果为了偷懒写了个脚本,一次性过滤所有数据,脚本支持双端测序,过滤的数据放在同一个文件夹下,其中的路径根据自己的修改即可。

脚本如下:

查看其中一个文件的日志,最后一行显示成功!小果泪目!


部分输出结果

单末端测序运行以下命令:

还是一样注意修改文件路径和文件名称!

 

好啦,今天的内容就到这里了,你学会了吗!

欢迎使用:云生信  - 学生物信息学 (biocloudservice.com)

如果想用服务器私信小果哦!


利用Trimmomatic进行转录组原始数据过滤:小果吐血整理!的评论 (共 条)

分享到微博请遵守国家法律