欢迎光临散文网 会员登陆 & 注册

转录组比对软件STAR安装及使用

2022-08-12 18:04 作者:笨笨熊爱吃肉  | 我要投稿

发现服务器上没有安装STAR (Spliced Transcripts Alignment to a Reference),这个转录组最常用的比对工具之一,也是我之前一直的用的转录组比对工具,今天安装一下并重新学习,好好理解之前设置的参数是否正确。

STARENCODE计划(ENCyclopedia Of DNA Elements,人类基因组DNA元件百科全书计划)的御用pipeline工具,在转录组的文章中出镜率极高,别人说其准确率高,映射速度快,但需要占用大量内存,对计算资源有较高的要求。在之前Hisat2安装使用过程中,提到了2017年的一篇NC比较转录组比对工具的文章,又查了一下,这样总结的:STAT相比较TopHatHisat2,有较高的唯一比对率;STAR会将没有paired mapping上的reads都剔除,避免single reads比对到基因组上;并且STARlower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度,这对一些杂合率较高的基因组优势比较明显;这次注意到,在用GATKRNA-Seq进行 Call Variants时,采用STARSTAR 2-pass模式,估计以后也会用到。

下载安装软件

https://github.com/alexdobin/STAR

选择其中一个版本下载后, tar -zxvf 进行解压:

 tar -zxvf STAR-2.7.9a.tar.gz

 cd STAR/source

 make STAR

然后这次我注意到在bin目录下有两个带有linux目录及source目录下都有STAR命令,都可以运行,我翻看之前的命令行,用的第二个里面的STAR命令,初步判断三个均可以,这次还是选用2中的STAR命令:       

图片

二、构建基因组索引Index

Hisat2一样,需要先构建基因组索引,索引文件作用现在还只记得是在比对过程中,我们并不是把几十万条reads直接比对到基因组上去,而是和Index进行比较,使比对过程变地可行,希望等课题结束后,再回过头来好好学习一下索引文件作用的原理,先上脚本:

图片

参数解释:

--runThreadN:线程数为10

--runModegenomeGenerate,构建基因组索引;

--genomeDir:指定索引生成目录;

--genomeFastaFiles:指定参考基因组;

--sjdbGTFfile:指定参考基因组的注释文件;

--sjdbOverhang:这个是reads长度的最大值减1,默认是100,我不是很理解很多人分析的学习方法中都设置100,二代测序都是150bp的序列长度,我设置了149 (有时间时改一下数值比较一下对结果是否有影响);

发现有三个反斜杠“\”异常成了黄色,暂时不清楚原因,结果报错了:

图片

其实我也不知道为啥,将运行命令行的反斜杠去掉,再试一下:

图片

刚才的问题解决了,又报了其它错误信息:

图片

居然是gtf文件的错误,第一次遇见这个问题,然后找原因:

我们看一下gtf的开头是CM023448.1,如下图:

图片

我的参考基因组开头是>GWHAMMI00000001,如下图:

图片

原来是染色体的命名方式不一样,一个是CM开头,另一个是GWHAMMI开头,我回到NCBI去下载序列文件又看了一下,居然是我之前下错文件了(从另一个数据库下载的参考基因组,两个数据库同一物种染色体编号规则不同),之前做的工作又浪费了,重新下载,指定序列文件,30min后,成功建立索引,索引目录如下:

图片

reads比对:

相比于Hisat2STAR太多的参数设置了,对于模式生物还好,很多默认参数就可以,但对于我的课题研究,就得仔细看看这些参数了,着实用去了我不少时间,先上我的脚本,如下图:

图片

我的参数设置:

图片

未用的其它参数:

--outFilterMismatchNmax:比对时允许的最大错配数(可根据结果修改);

--outSAMmapqUnique60:将uniquelymapping readsMAPQ值调整为60,满足下游使用GATK进行分析的需要;

--readFilesCommand:对FASTQ文件进行操作;

--readFilesIn输入FASTQ文件的路径;

--outSJfilterReadsUnique:对于跨越剪切位点的readsjunction reads),只考虑跨越唯一剪切位点的reads;

--alignIntronMin:最短的内含子长度设定了20(根据GTF文件计算);

--alignIntronMax:最长的内含子长度设定了50000(根据GTF文件计算);

--bamRemoveDuplicatesType   输出BAM文件时,STAR还可以对BAM进行一些预处理,用于去重。

四:结果如下图,

图片

1、使用samtools查看生成的BAM文件。

samtoolsview sample_Aligned.sortedByCoord.out.bam |head -n 5

2、结果内容:

Aligned.sortedByCoord.out.bam:reads比对到基因组的位置;

Aligned.toTranscriptome.out.bam:reads比对到转录本的位置;

Log.final.out:统计了比对情况的信息,是非常重要的结果;

SJ.out.tab:splice junctions的一些信息,其中需要注意的是:对于junction的位置信息,STAR则是按照intron的起始和终止位置来定,而其他的一些软件则是按照exon的位置来决定的

 

附:我比较了一下starHisat2的结果差异,在运行时间和比对率上,star并没有表现出明显的优越性上。

参考:

https://blog.csdn.net/weixin_28913137/article/details/112281831


本文使用 文章同步助手 同步


转录组比对软件STAR安装及使用的评论 (共 条)

分享到微博请遵守国家法律