欢迎光临散文网 会员登陆 & 注册

尔云间生信代码|DNA序列分析适用工具DNA Utils

2022-07-18 17:11 作者:尔云间  | 我要投稿

这个模块在处理DNA或者RNA以及蛋白序列过程中具有非常重要的作用,例如计算GC含量,分子比重,校验算法,密码子说明,解链温度以及其他功能等等。

科研有捷径,输入代码,一键获取科研成果!就是这么省事,来具体看下有多方便!

搜索http://985.so/a9kb查看全部代码(目前共计50+持续新增中),也可以点击右侧【目录】,可以看到更多有趣的代码;真香提示:文末可以知道如何获取代码~ 


所有的函数都有详细的文档说明,今天我们详细介绍下其中的DNA Utils

SeqUtils有很多非常高效的function,可以被用于实现分析DNA序列,其中就有GC content。

GC content:

在一个基因序列中,鸟嘌呤和胞嘧啶的比例通常是非常有意义的,因为他们决定了这段序列的稳定性和保守性,通常来说,一段序列上的GC含量如果很高。

则说明这段序列高度保守,且非常稳定,不易发生突变,在生物学和进化分析过程中具有重要意义,例如CpG岛。我们可以通过下面方法来计算一段序列中的CG含量

图片

 
DNA melting Temperature

这个函数可以计算一段序列的解链所需温度或能量值。通过Melting-Temp.Tm staluc function进行计算。可以适用于DNA以及RNA序列。

图片

 

CheckSum functions:

一个checksum校验和函数通常是有一组短的字符串构成,来源于

输入文件,并计算文件数据的完整性。

从任何一种数据,如DNA序列数据中,使用这个算法你都可以产生一组小的字符串,我们成为signature,可以代替原始数据。有一些程序将signature信息粘贴到一个序列信息中,从而确定数据完整。一个简单的例子如下

在这个例子中,Check number为1149,这一信息来源于序列数据。如果导入的序列数据改变了,则这个check值也会随之发生改变。这里经常有一些随机collision存在,就是说两个不同的序列有可能产生一个相同的signature。


这个“GCG checksum”有一个弱点,就是他只能允许10000个不同的signature。这就是为什么在crc32,crc64以及seguid中会有一些更强大的checksums。

所有这些checksum都是在CheckSum模块中的,他们可以从较弱的算法到较强的算法进行排序,如下所示


尔云间生信代码|DNA序列分析适用工具DNA Utils的评论 (共 条)

分享到微博请遵守国家法律