FASTA & FASTQ 格式
FASTA
又称Pearson格式,主要发明人是威廉·皮尔森(William Raymond Pearson)和戴维德.李普曼(David J. Lipman)。
一个文件可储存一条或多条序列信息。
每条序列信息包括两部分:
①序列描述header,即该序列的身份信息identifiers,仅有一行,以>开头;
②序列组成。

FASTQ
一般用于表示测序结果。测序必有误差,因此fastq相较于fasta文件引入了序列信息的准确性。
每条序列有4行:
第一行等同于fasta的header,以@开头;
第二行为测序结果的序列信息;
第三行一般只有一个加号+,有时也会包含一些描述内容;
第四行是与第二行对应的测序质量信息,即每个测序碱基结果的准确性。
双端测序一般储存在两个fastq文件中。

Phred Quality
碱基测序质量(Base call quality)用错误率(error probability,e或P)表示(如e=0.001表示,平均1000次测序中有一个碱基为错误结果)。
e一般较小,为表示方便会进行换算:
①首先进行对数转换, Q = -10 x lg(e);
②再进行ASCII值转换,通常将 Q值+33 后再转换为对应的ASCII码,即fastq格式第四行的测序质量结果。
