欢迎光临散文网 会员登陆 & 注册

利用gatk进行变异检测的n步走战略之二

2023-09-22 09:04 作者:小云爱生信  | 我要投稿

尔云间  一个专门做科研的团队

欢迎点赞+收藏+关注

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

(56线程,256G内存,个人存储1T)


hello!小果又来啦!

前情回顾:上期我们利用gatk生成了索引文件并对sam文件进行了排序,折起我们接着往下走。

一个小tip:索引文件最好要和参考基因组的fasta文放到同一个目录哦!不然后面会出错的,小果的血泪教训!


好了我们继续吧,现在我们需要利用GATK的MarkDuplicates工具去除PCR重复,并将结果存储到指定的输出文件中。

其中,${sample}代表sample.txt文件中每一行所存储的样本名称。

-I选项用于指定输入的BAM文件,-M选项指定输出重复信息的文件,--CREATE_INDEX选项指定输出文件的同时也创建其对应的索引文件,-O选项指定输出文件名。

--java-options "-Xmx16g -Djava.io.tmpdir=./tmp"选项则是在运行GATK时为Java虚拟机指定参数,其中-Xmx16g指定了最大堆内存为16GB,-Djava.io.tmpdir=./tmp指定了临时文件的目录为当前工作目录下的tmp文件夹。

 

接下来我们对每个样本进行HaplotypeCaller变异检测,并生成GVCF格式的文件,注意替换自己的文件路径:

其中:REF 指定参考基因组文件路径

查看日志cat gvcf.log

 

小果这边放一下运行过程中的结果,可以看到其他结果还没有出来。

 

好啦,今天的内容暂时就到这里了,我们下期继续!


欢迎使用:云生信  - 学生物信息学 (biocloudservice.com)

如果想用服务器私信小果哦

“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。

利用gatk进行变异检测的n步走战略之二的评论 (共 条)

分享到微博请遵守国家法律