转录组分析<五>之数据质控

通过前四篇推文(详细内容可以点击《转录组分析<一>之Hisat2不完全使用指南一》、《转录组分析<二>之Hisat2不完全使用指南二》、《转录组分析<三>之Stringtie不完全使用指南》和《转录组分析<四>之使用DEseq2/edgeR进行差异分析》),读者可以完成测序数据的比对、定量和差异表达基因。但是,我们有可能会发现分析的结果不够理想,却不知从何处找原因。这里就不得不提到转录组分析中最基础,也是最重要的环节之一,转录组数据的质控。
一 质控原因
现在常用的测序仪器如Illumina,其下机的数据常常是包含接头的,低质量的reads,含有大量N的read。因此,我们首先需要对这些数据进行过滤,去掉这些可能会干扰结果的reads。之后,我们就会得到clean data。但是,对于这些clean data是否需要再评估一下呢。答案显然是yes!
二 质控流程
1 单个测序文件的质控
那么,就需要使用到一个重要的分析工具:Fastqc。下面,我将通过四行代码介绍如何使用fastqc去进行质量的评估(下载程序、解压程序,进入目录,运行程序)。
完成上述步骤后,每个测序文件都生成一个html文件和文件夹。使用浏览器打开html文件夹,我们就可以查看各个测序文件的质控结果。

2 多个测序文件的质控结果整合
这里会有一个问题,如果我们有几十个测序文件,那我们该如何整合这些测序文件的质控结果到一个文件中呢?这里就得介绍一个软件multiqc(网址为https://multiqc.info/)。使用这个软件,我们就可以实现两步完成对多个转录组数据的质控结果的整合。
运行完上述代码之后,我们就会在当前目录下产生一个html文件和一个文件夹:multiqc_report.html和文件夹multiqc_data。此时html文件会将所有的结果整合。因为图1已经展示了质控的评价指标,而multiqc仅仅是对这些结果的整合,因此,下文仅以图1中的‘2每个位置碱基质量’整合结果进行介绍,其余指标也可参照相应结果进行解析。

如图2所示,整合结果中一方面会显示多少样品达标,另一方面也会将所有样品的质控结果进行统计,并以图的形式展出。
三 结果评估
实际上,质控结果中我们首先需要重点关注的是‘2 每个位置碱基质量’、‘4 每个序列质量得分’和‘11 序列中接头含量’。而其余指标则需要依据最终结果进行选择,如果影响后续分析,则需要根据结果重新对测序数据进行过滤。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。


