欢迎光临散文网 会员登陆 & 注册

QC参数的解读诠释

2023-03-13 16:51 作者:上海迪赢生物  | 我要投稿

NGS(Next-generation sequencing)也叫高通量测序,相对于一代测序而言,可以一次并行地对几十万到几百万条的DNA分子进行序列读取,提供丰富的遗传信息。针对20个以上的靶点,NGS更加经济快速。

通过NGS数据可以获得基因组的序列信息并分析突变。但是相比Sanger测序直观的峰图和较高的测序准确度,NGS数据量庞大,且测序准确度较Sanger测序的更低,因此建立标准的质控流程,确保用于后续分析序列的可靠性就非常重要。本文将对目前通用的QC指标进行解读。

高通量测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,以FASTQ(简称为fq)文件格式存储。

图1.Base相关参数概念
图2.Read相关参数概念

为了保证分析质量,后续数据分析都是基于精细过滤的Clean Reads进行的,主要分析参数有Q值-碱基质量值、QC率(Clean data得率)、Mapping Rate-比对率、Duplication Rate-冗余率、On Target Rate-中靶率、Uniformity-均一性、Coverage-覆盖度、Depth-测序深度,相应的概念及意义分析如下:

Q值-碱基质量值

在高通量测序中,每个被测到的碱基都会有一个质量值打分,称为Q值(Qphred),体现测序过程中碱基识别的可信度和错误率(e)。计算方法如下:Qphred = -10log10e,通过此公式可以看出,Q值越大,表示识别错误的可能性越小,可信度就越高。如表1所示,常用于统计的Q值对应着不同的错误率。在高通量测序中,普遍使用Q20作为碱基过滤的阈值,而Q30也被经常用来评价测序的质量。

表1.Q值与错误率的对应关系


QC率(Clean data得率)

下机后的Raw Data除了要过滤掉低质量的碱基,还要考虑部分情况下可能测到的adapter序列。因为adapter的序列是人工设计的,因此可以通过对测序序列的比较来判断read上是否存在adapter序列,并切除。经过低质量碱基和接头序列过滤后,就得到我们需要的Clean Data。Clean Data和Raw Data的比值就是QC率,也可以称之为Clean Data得率。在计算上机测序数据量时,该指标可以作为参数进行数据量的预估,也可以反过来计算测序深度。


Mapping rate-比对率

将测序得到的Clean数据对比到参考基因组,统计能够比对到参考基因组的Reads和全部Clean Reads的比例,就是Mapping Rate。该比值越高越好,过低意味着存在污染。


Duplication Rate-冗余率

在将Clean Reads比对到参考基因组后,会发现部分Reads有着相同的起始和结束位置,并且序列完全相同,则这些序列被视作Duplication,只保留一条用于后续分析(也有观点认为只需要起始、终止位置一致就可以判定为Duplication)。比如下图中的R1和R2。R3虽然起始位置和R1、R2一致,但终止位置并不一致,因此不能算作为Duplication。这些重复序列在总测序序列中的占比称之Duplication Rate-冗余率。

图3.Duplication示意图

Duplication的存在会造成等位基因频率和基因型识别不准确,并且相同的测序深度下,Duplication Rate越高,有效深度就越低,可能会影响测序结果。


On Target Rate-中靶率

表示含有目标区域的文库占全部文库的比例。拿外显子的Panel来举例,基因组中有许多与外显子有同源性的序列,但这些并不属于目标区域的部分也会在杂交过程中被捕获下来。这种探针捕获到非目标区域片段的情况称为脱靶现象(Off Target)。脱靶的数据是无效的,不能用于后续分析,浪费数据量。通过计算中靶序列在全部文库中的占比,就可以评估这一次捕获实验的特异性。捕获效率越高,说明覆盖同样深度所需的数据量越小,可以降低测序成本。

捕获效率可以细分为Reads和Bases两类。Bases的捕获效率通常被用于计算目标区域的平均深度。而对于某些特殊的捕获场景,Reads的捕获效率更适合用来表征真实的捕获效率,比如检测某种病原体的有无。


Uniformity-均一性

均一性指的是测序得到的数据在基因组或目标区域分布的均一程度。在实际测序中,目标区域内不同的位点被覆盖的情况是不同的,理论上均一性越高越好,表明每一个位点都能均匀的测到基本一致的深度。

对于均一性有两种解释:1.总体的偏离,可以用方差来计算;2.特定深度区域的占比。目前行业内的共同标准是深度达到0.2倍平均深度的区域占Coverage区域的比例。另外还有Fold-80评分也可以评估均一性。


Coverage-覆盖度

覆盖度往往会和测序深度一起提及,比如100X测序深度下的覆盖度为99%,则表示有99%的区域,区域中的每个碱基都至少被测到了100次,或者说99%的区域至少有100条的Reads覆盖。如果不涉及测序深度,那么覆盖度往往指的是1X测序深度下的覆盖度,比如覆盖度99%则代表有99%的区域至少测到过1条reads,还有1%的区域没有测到数据。相同条件下,覆盖度越高越好,代表着越多的区域被测到,遗漏的信息越少。


Depth-测序深度

由于高通量测序的准确度较Sanger测序低,且为并行测序,因此可以通过对同一个碱基进行多次测序来获得准确的碱基信息。对某一个特定的碱基来说,每测到一次,我们就记这个碱基被测了“1X”。最终所有的数据统计,这个碱基被测到了多少次,就说这个碱基测了“多少X的深度“。反过来说,如果某个碱基的测序深度是20X,那表明该碱基被测到了20次,或者说有20条不同的reads覆盖这个碱基。对于一定的区域而言,则使用”平均测序深度“这个概念,来描述整个区域平均每个碱基被测到的次数。在实际应用中,不同类型的检测,所需要的深度也不同。用于Germline变异检测的时候,WGS一般测30X的平均深度,WES一般测100-200X的平均深度;而用于Somatic变异检测的时候,Panel会被推荐测至少500X的平均深度。

下图即为以上指标简易示意图:

图4.相关指标示意图

在以上介绍到的指标中,覆盖度是最重要的一点,如果覆盖度达不到要求,那就谈不上检测变异。均一性是保障检测的准确度,二代测序要求位点有足够高的绝对深度,较高的均一性可以保证在一定的测序数据量下,更多的区域有足够的深度;捕获效率是关注有效数据比例,若该指标低,那就需要增加足够多的测序量才能得到足够高的有效深度。均一性、捕获效率和Duplication共同决定了检测的经济性,三个指标都达到较为理想的状态时,就可以用最小的数据量来准确检测目标区域的变异信息。

QC参数的解读诠释的评论 (共 条)

分享到微博请遵守国家法律