欢迎光临散文网 会员登陆 & 注册

关于sam转bam遇到的错误解决方法记录

2023-07-31 17:06 作者:薇港  | 我要投稿

在用samtools view 的时候出现 Duplicate entry "k127_110300" in sam headersamtools view: failed to add PG line to the header 经查看"k127_110300"在ZH9_FDSW220008792-2r.sam中,通过查阅https://github.com/samtools/samtools/issues/1217这篇帖子看到了解决办法。

先找出重复的header: awk '/^@/ && /:k127_110300/ { print } /^[^@]/ { exit }' ZH9_FDSW220008792-2r.sam 再除掉重复: awk 'BEGIN { i = 0; } /^@/ { if (/:k127_110300/) { if (i++ < 1) { print; } } else { print } } /^[^@]/ { print }' ZH9_FDSW220008792-2r.sam > ZH9_FDSW220008792-2r.sam 但是再次运行samtools view还是出现同样问题还多了一行 [main_samview] fail to read the header from "ZH9_FDSW220008792-2r.sam" 后来发现原来我是多条重复(lll¬ω¬),决定用bamutil试一下。

参考一下https://blog.csdn.net/weixin_51192038/article/details/124994097 直接用conda安装就可以。 bam convert  --in *.sam  --out *.bam samtools sort *.bam -o *_sorted.bam bam dedup --in *_sorted.bam --out ./*.bam 然后现在又要用bamM,,,发现是合并后的fa文件里有序列id重复的,打算将不同样地的序列id前加上样地名。(这个最好!!不依赖软件) 先将id提取出来得到id.txt,参考https://www.jianshu.com/p/a0c3c8f96b1f,得到一个rename.txt,第一列是原id,第二列是加了样地名的id。 用excel处理:将id.txt用excel打开,在第二列第一行输入样地例如BH,再将第一列第一行的id复制粘贴到BH后,再点击第二列第二行,ctrl+e,就完成了。 用seqkit处理:seqkit replace --ignore-case --kv-file rename.txt --pattern "^(\w+)" --replacement "{kv}" genome.fa -o genome.new.fa

关于sam转bam遇到的错误解决方法记录的评论 (共 条)

分享到微博请遵守国家法律