Fastp软件:处理fastq文件它超棒!
尔云间 一个专门做科研的团队
欢迎点赞+收藏+关注
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)

它可以对Illumina平台的测序数据进行质量控制、过滤低质量序列、截断3'端低质量序列、去除接头序列等操作,同时还可以统计序列质量分布、GC含量分布、错误率分布、N含量等信息。
fastp采用多线程加速,速度快、准确性高,并且支持多种数据输入和输出格式。今天小果想带大家一起学习下如何用fastp对原始测序数据进行处理,下面我们开始吧!
数据准备
在ncbi的sra数据库下载的拟南芥测序数据,包括四个基因型,每个基因型五个重复。
链接在这里,小果使用的样本编号为
数据的具体下载方法可以查看往期内容:小果发现用SRA Toolkit工具下载转录组数据很好用!
这里就不再赘述了,直接放代码:
软件下载
仍然使用我们的老朋友miniconda下载,真的很方便,miniconda的安装方法小果也分享过哦~
数据处理
在这里可以把上述代码做成脚本来运行和管理。其中in1表示输入的read1的fastq文件out1表示输出的过滤后的read1的clean reads.注意修改代码中的路径为自己的哦~小果是直接运行的脚本:
没有意外的话,让我们来看看结果吧!以下就是我们得到的过滤后的reads了,成就感满满!
好啦,今天的内容暂时就到这里了,我们下期继续!

欢迎使用:云生信 - 学生物信息学 (biocloudservice.com)
如果想用服务器可以私信小果哦!

“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。