欢迎光临散文网 会员登陆 & 注册

FASTA & FASTQ 格式

2022-03-16 11:28 作者:托芙  | 我要投稿

FASTA

  • 又称Pearson格式,主要发明人是威廉·皮尔森(William Raymond Pearson)和戴维德.李普曼(David J. Lipman)。

  • 一个文件可储存一条或多条序列信息。

  • 每条序列信息包括两部分:

    ①序列描述header,即该序列的身份信息identifiers,仅有一行,以>开头;

    ②序列组成。

fasta格式的三段DNA序列

FASTQ

  • 一般用于表示测序结果。测序必有误差,因此fastq相较于fasta文件引入了序列信息的准确性。

  • 每条序列有4行:

    • 第一行等同于fasta的header,以@开头;

    • 第二行为测序结果的序列信息;

    • 第三行一般只有一个加号+,有时也会包含一些描述内容;

    • 第四行是与第二行对应的测序质量信息,即每个测序碱基结果的准确性。

  • 双端测序一般储存在两个fastq文件中。

fastq格式的序列

Phred Quality

  • 碱基测序质量(Base call quality)用错误率(error probability,e或P)表示(如e=0.001表示,平均1000次测序中有一个碱基为错误结果)。

  • e一般较小,为表示方便会进行换算:

    ①首先进行对数转换, Q = -10 x lg(e);

    ②再进行ASCII值转换,通常将 Q值+33 后再转换为对应的ASCII码,即fastq格式第四行的测序质量结果。

错误率与ASCII值的对应关系


FASTA & FASTQ 格式的评论 (共 条)

分享到微博请遵守国家法律