利用Rsamtools subset bam file以及edit distance的计算
Rsamtools是一个方便的R包,能过对bam文件操作,查看read sequence,提取或者过滤掉一些不想要的reads,之后生成新的bam file。以下是一些我所应用过的操作流程。
一:定义想要从bam中读取的header,然后提取出来:
二,接着就可以对anab中的read进行查看了。
三,利用CIGAR string和nM标签计算Edit distance:
参考这篇文章中的做法

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2353-5
10X的bam文件中没有NM header, 我觉得应该是用nM标签对应的数字计算Edit distance。
代码如下(参考https://github.com/NKI-GCF/XenofilteR/blob/cf6165a22d64462d544e11a789299bbff904f1ca/R/XenofilteR.R#L205):
四,如何过滤掉/选取符合自定义条件的一些reads:
我一开始应用的场景比较复杂,参考的是https://support.bioconductor.org/p/119592/#119629, 能琢磨透这个基本上就能搞懂Rsamtool这一块的功能了。