不同蛋白数据库之间的id转换数据库

一 起因
对于现在需要研究蛋白质组学的人而言,特别是研究PPI的人而言,不同的蛋白数据库间名字的差异是一件非常让人困惑的事情。明明是同一个蛋白,却存在许多不同的姓名。这也导致了数据间的共享利用成为了一个小小的麻烦事情。因此,笔者将几种常用的数据库id之间的转换一次说清,方便各位读者避开这些坑。
二 调用
为了方便进行统一id的转换,我们将以uniprot的蛋白id作为所有数据库的参考id。而取这一参考id的原因则是因为uniprot数据库应该是目前已知的包含蛋白信息最全的数据库了。
至于需要转换的数据库则太多啦,因此,本文将以最常见的蛋白互作数据库STRING数据库为例,介绍如何进行id转换。
STRING数据库简介:在分子生物学中,STRING(用于检索相互作用基因/蛋白质的搜索工具)是已知和预测的蛋白质-蛋白质相互作用的生物数据库和网络资源。STRING 数据库包含来自众多来源的信息,包括实验数据、计算预测方法和公共文本集合。它可以免费访问,并且会定期更新。该资源还使用许多功能分类系统(如 GO、Pfam 和 KEGG)来突出用户提供的蛋白质列表中的功能丰富。最新版本 11b 包含来自 5000 多种生物的约 2450 万种蛋白质的信息。STRING 由学术机构联盟开发,包括 CPR、EMBL、KU、SIB、TUD 和 UZH。
实际上,STRING数据库对于蛋白的命名有专门的id(以ENSP开头)

但是呢,uniprot蛋白的id则是以字母加数字的方式来表示的(如下图)。

那么,接下来,我们就以人类蛋白为例,展示如何将STRING数据库中ESPN开头的蛋白与uniprot的蛋白联系起来。
首先,我们在Popular organisms选项中选择好‘Human’。随后点击download选项。

随后,可以看见默认的选项卡中format选项是fasta,这也意味着下载的数据中仅仅包含fasta相关信息,但是呢,我们需要的信息是uniprot id与STRING id的对应关系,那么该怎么办呢?

接着,在弹出来的对话框中我们需要选择TSV格式,即需要下载的蛋白的其他相关信息

之后呢,在Protein-protein intraction选项中STRING复选框打上√,然后点击下载即可。
PS:其实从选项卡中我们可以看到,能对应的起来的数据库包括了corum、BioGRID、MINIT、IntAct等等互作数据库,还有结构数据库等等数据库。其实按照本推文的方法都能够得到对应的id对应关系。

最后,下载的数据库数据中即包含uniprot id和STRING id的对应关系(如下图)。当然,并不是每个蛋白都能找到对应的STRING id。

至于,如何将这些id对应起来,那必然会用到本公众号自研软件Multi-omics Hammer的一个Aligment功能啦。该功能可以将两个数据库的数据按照对应的列进行对齐,并且无需任何代码操作。具体的推文地址可以点这里:Multi-omics Hammer软件之Aligment功能介绍
三 惯例小结
每一个蛋白数据库的开发都受限于当时的技术以及所需要服务的人群的差异,这必然会导致不同数据库间的统一利用存在少许的问题。现在,许多的数据库创建者已然认识到了这一点,因此,不同数据库间的互通有无也成为了许多数据库的标配。但是,由于本公众号的读者存在一些湿实验的同学,对于干实验的同学习以为常的数据库使用起来存在困难。因此,本文希望能够起到一个抛砖引玉的作用,将不同蛋白数据库信息整合起来,方便各位读者的使用。不过,这些数据库都是一些常见的数据库,并未包含一些小众的数据库,后续的话公众号也将根据笔者自身的知识的拓展进行持续的更新,也欢迎各位读者多提意见。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
Multi-omics Hammer软件下载地址:
https://github.com/wangjun258/Multi-omics-Hammer
Multi-omics Visual软件下载地址:https://github.com/wangjun258/Multi_omics_Visual/releases/tag/Multi_omics_Visual_v1.03
PS:因为本软件是用python脚本撰写,调用了部分依赖包,用户首次使用需要安装python以及对应的包,安装之后便可永久使用。
本公众号开发的相关软件,Multi-omics Hammer软件和Multi-omics Visual软件欢迎大家使用。文末是本公众号在其他平台的账户,也欢迎大家关注并多提意见。
简书:WJ的生信小院
公众号:生信小院
博客园:生信小院
最后,也欢迎各位大佬能够在本平台上:1传播和讲解自己发表的论文;2:发表对某一科研领域的看法;3:想要达成的合作或者相应的招聘信息;4:展示自己以寻找博后工作或者博士就读的机会;5:博导提供博后工作或者博士攻读机会,都可以后台给笔者留言。希望本平台在进行生信知识分享的同时,能够成为生信分析者的交流平台,能够实现相应的利益互补和双赢(不一定能实现,但是梦想总得是有的吧)。
另外,怎么说呢,投币也可,不强求,但奢求。
四 每日一图(源自Stable-diffuse创作)





