转录组分析<三>之Stringtie不完全使用指南

通过前两篇推文(详细内容可以点击推文1和推文2),用户使用hisat2软件完成了测序文件的比对,并得到每个样本的比对结果。那么,接下来我们需要做的就是整合所有样品的定量结果,从而进行下一步的分析。这也引入我们今天的主题:Stringtie。
一 输入文件的预处理
针对hisat2产生的sam文件如alns.sam,需要首先通过以下命令完成文件内排序,从而生成输出文件alnst.sorted.bam
在使用minimap2的-ax splice选项对长RNA-seq读数进行比对的情况下,不需要XS标签;当CRAM文件被用作输入时,参考基因组序列建议可以用--ref(-cram-ref)选项提供(多染色体序列组成的多FASTA文件),从而使得RNA-seq的read可以与之对齐。
二 运行StringTie
默认用法的通用命令行有如下格式:。
<read_alignments.bam>:必须是一个SAM、BAM或CRAM文件,其中包含按基因组位置排序的RNA-Seq读数排列(HISAT2使用samtools分类和转换后的输出,如下文所述)。
-o<output.gtf>: 主要的输出是一个GTF文件,其中包含由StringTie从读数排列数据中组装的转录本的结构定义。
注意:如果使用了--mix选项,StringTie希望两个对齐文件作为位置参数,以特定的顺序给出:短读对齐文件必须是第一个给出的文件,而长读对齐文件必须是第二个输入文件。两个对齐文件必须按基因组位置排序。另外,StringTie中的命令行分析器允许任意的顺序,所以第一行命令与第二行命令效果相同
接下来,我们将注意介绍StringTie 的other_options选项
--version: 打印版本并退出。
-L: 长读处理模式;同时强制执行-s1.5 -g 0(默认:false)。
--mix: 混合读处理模式;短读和长读的数据排列都需要指定(长读排列必须作为第二个BAM/CRAM输入文件给出)
-e: 这个选项指示StringTie在表达估计模式下操作(因此这个选项需要-G)。
-v: 打开粗略模式,打印捆绑处理的细节。
-o [<path/>]<out.gtf>: 设置输出GTF文件的名称,StringTie将在该文件中写入组装的转录本。
-p <int>: 指定处理线程(CPU)的数量,默认是1。
-G <ref_ann.gff>: 使用一个参考注释文件(GTF或GFF3格式)来指导组装过程,结果会包含新转录本(-B、-b、-e、-C均需要开启选项)。
--rf: 假设是一个链特异性文库fr-firststrand。
--fr: 假设是一个链特异性文库fr-secondstrand。
--ptf<f_tab>: 从文本特征文件<f_tab>加载点特征列表,以指导转录组的组装。
-l<label>: 将<label>设置为输出转录本名称的前缀。默认值:STRG。
-f<0.0-1.0>: 将预测转录本的最小异构体丰度设置为在给定位点组装的最丰富转录本的一部分,因为低丰度转录本通常是加工转录本的不完全拼接前体的产物。默认值:0.01
-m <int>: 设置预测的转录本所允许的最小长度。默认值:200
-A <gene_abund.tab>: 基因丰度将在给定名称的输出文件中报告(以制表符分隔的格式)。
-C <cov_refs.gtf>: StringTie输出一个给定名称的文件,其中包括提供的参考文件中所有被读数完全覆盖的转录本(需要-G)。
-a <int>: 没有拼接的读数与之对齐,且两边至少有这个数量的碱基的连接点将被过滤掉。默认值:10
-j <float>:至少应该有这么多拼接好的读数与结点对齐(即结点覆盖率)。计算方法为一个在n个地方对齐的读数将对交界处的覆盖率贡献1/n。默认值:1
-t: 默认情况下,StringTie会根据组装好的转录本覆盖率的突然下降来调整预测的转录本的起始和/或终止坐标(本参数设定后会禁止该选项)。
-c <float>: 设置预测的转录本允许的最小读数覆盖率。覆盖率低于此值的转录本不会显示在输出中。默认值:1
-s <float>: 设置单外显子转录本允许的最小读覆盖率。默认值:4.75
--conservative: 以保守模式组装转录本。与-t-c 1.5 -f 0.05相同。
-g <int>: 最小基因座间隙分离值。比这个距离更近的映射的读数会在同一个处理束中合并在一起。默认值:50(bp)
-B: 这个开关可以输出Ballgown输入表文件(*.ctab),其中包含-G选项中给出的参考抄本的覆盖率数据。
-b <path>: 就像-B这个选项可以为Ballgown输出*.ctab文件,但是这些文件将在提供的目录<path>中创建,而不是由-o选项指定的目录。
-M <0.0-1.0>:设置允许出现在给定基因座上的muliple-location-mappedreads的最大比例。默认值:0.95。
-x <seqid_list>: 忽略指定参考序列上的所有读数排列(从而不尝试进行转录本组装)。
-u: 关闭多重映射校正。在默认情况下,该校正被启用,覆盖率贡献计算可见-j选项。
--ref/--cram-ref: 对于CRAM输入文件,参考基因组序列可以作为一个多FASTA文件提供,在对齐读数时使用相同的染色体序列。这个选项是可选的,但建议使用,因为StringTie可以利用一些比对/连接质量数据(连接周围的错配),在CRAM文件的情况下,如果同时提供参考基因组序列,可以更准确地评估。
--merge: 转录合并模式。与上述的组装使用模式不同,在合并模式下,StringTie将GTF/GFF文件的列表作为输入,并将这些转录本合并/组装成一个非冗余的转录本集,并被用于新的差异分析流程。
如果提供了-G选项(参考注释),StringTie将把输入的GTF文件中的转录物与参考转录物组合起来。而在这种模式下可以使用以下附加选项。
-G<guide_gff>: 合并中包含的参考注释(GTF/GFF3)
-o<outgtf>: 合并成绩单gtf的输出文件名(默认值:stdout)
-m<min\u len>: 合并中包含的最小输入转录本长度(默认值:50)
-c<min_cov>: 合并中要包含的最小输入成绩单覆盖率(默认值:0)
-F<min_fpkm>: 合并中包含的最小输入成绩单fpkm(默认值:0)
-T<min\u tpm>: 要包含在合并中的最小输入成绩单tpm(默认值:0)
-f<min_iso>: 最小异构体分数(默认值:0.01)
-i: 保留保留保留内含子的合并成绩单(默认:除非有强有力的证据,否则不会保留)
-l <label>: 输出转录本的名称前缀(默认值:MSTRG)
三 重点参数的额外解析
参考注释转录本(-G)
可以用-G选项向StringTie提供GTF或GFF3格式的参考注释文件,它可以作为组装过程的 "指南",并帮助改善这些转录本的结构恢复(强烈建议使用)。而因为有参考基因组,那么不在原基因组中的文转录本就将被视为新转录本。
表达估计模式(-e)
当使用-e选项时,参考注释文件-G是一个必要的输入,StringTie不会尝试组装输入的读排列,而是只估计-G文件中提供的 "参考 "转录本的表达水平(没有新的转录本产生)。并且,任何与参考转录本重叠的reads比对信息将被忽略。对于速度而言,可能会提供一个相当大的速度提升。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。


