欢迎光临散文网 会员登陆 & 注册

利用Rsamtools subset bam file以及edit distance的计算

2023-06-13 19:50 作者:007godson  | 我要投稿

Rsamtools是一个方便的R包,能过对bam文件操作,查看read sequence,提取或者过滤掉一些不想要的reads,之后生成新的bam file。以下是一些我所应用过的操作流程。

一:定义想要从bam中读取的header,然后提取出来:

二,接着就可以对anab中的read进行查看了。

三,利用CIGAR string和nM标签计算Edit distance:

参考这篇文章中的做法

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2353-5

10X的bam文件中没有NM header, 我觉得应该是用nM标签对应的数字计算Edit distance。

代码如下(参考https://github.com/NKI-GCF/XenofilteR/blob/cf6165a22d64462d544e11a789299bbff904f1ca/R/XenofilteR.R#L205):




四,如何过滤掉/选取符合自定义条件的一些reads:

我一开始应用的场景比较复杂,参考的是https://support.bioconductor.org/p/119592/#119629, 能琢磨透这个基本上就能搞懂Rsamtool这一块的功能了。





利用Rsamtools subset bam file以及edit distance的计算的评论 (共 条)

分享到微博请遵守国家法律