欢迎光临散文网 会员登陆 & 注册

一次性get!6种pdb文件获取方式(附李继存老师翻译版)

2022-05-23 09:47 作者:唯理计算  | 我要投稿

在聊第一性原理计算课题的时候,相信大家一定不陌生的这句话就是,你有没有这个材料的cif?


cif文件记录了很多有价值的信息,但其实在第一性原理计算的过程中,最重要的信息其实只有原子坐标位置晶胞参数比较重要。具体的cif文件包含了什么信息和如何获取cif我们之前进行了介绍,大家可以点击链接查看

MS建模教程第二期——CIF文件的获取
而在聊分子对接虚拟筛选、分子动力学模拟等课题的时候,经常有同学对于PDB文件是啥感到茫然。为何我都给出了测到的蛋白质的序列,还需要提供什么PDB文件?


今天我们就来聊聊PDB文件。


1.PDB文件相关理论


序列只能提供蛋白质一级结构的相关信息,这个信息对于实际计算需求差太远了。一般可以通过同源模建、折叠类型识别和从头预测等手段获得预测的三维结构。但一般来说能有实验测到的结构就别用预测得到的结构。


说句不太严谨的话,蛋白质的三级结构某些情况下比起一级结构序列更能决定蛋白质的行为。同样的序列假设可以通过一些手段呈现出跟原始的蛋白质完全不同的折叠方式,那么很可能在生物体中呈现的是完全不同的效果。


如上图,研究人员通过同源建模分析发现COVID-19受体结合结构域的外部子结构域与SARS-CoV十分相似,这表明COVID-19和SARS-CoV可能通过相同的受体入侵宿主细胞,即ACE2。
总之一句话,对于研究蛋白质性质的课题,都需要明确知道物质结构信息而非简单的序列信息。
PDB文件就是用来记录蛋白质结构信息的文件。PDB文件的格式在下面网页可以查看:http://www.wwpdb.org/documentation/file-format-content/format33/v3.3.html
本次推送的附件中也放上了PDB文件3.3版的PDF版说明。
中文的简要说明可以查看李继存老师的博文:http://blog.sciencenet.cn/blog-548663-895916.html
PDB文件格式定义十分严格,甚至对每行定义中第N到第M个字符是什么都做出了定义。手动修改PDB文件很可能会导致文件无法被严格遵循PDB语法的软件读取。不同的软件在写入的时候可能会因为写入规则不同而导致保存的PDB文件不能被其他软件识别使用。
大家可以看上面放出的链接自行研究一下相关字段的含义。这里带领大家看一下ATOM字段,来学习一下怎么查看PDB的原始信息。
ATOM:http://www.wwpdb.org/documentation/file-format-content/format33/sect9.html#ATOM该字段是用来记录原子信息的,每个PDB文件必有该字段。


这里同时附上李老师的翻译版本:


大家根据下面的实际例子去理解一下


这个例子的前两行是为了方便大家查看理解本例子,特地加上去定位用的,不会出现在实际的PDB文件中。
比如上面定义每行7-11的位置是留给原子序号的,当前版本的PDB文件能够支持的一个残基中的原子最多只能为99999个。此时我们看原子序号才2位数,不需要占用那么四个位置。再一看,李老师给的说明是右对齐,那么只需要填充第10和第11空位就可以了。
然后再看13-16位是定义原子名的,13-14写的是原子的元素名如果是C那就写在14位,如果是Fe就写在13-14位。看上面的例子,显然我们知道,没有一种元素叫做CZ。这时候看列数可知,C在13-14列,所以CZ指代的是碳元素。当然这里的CA也不是钙的意思,而是指碳。原子名称后的字符是远程标识符, 表示离氨基碳原子的远近, 含义如下:
A: α  B: βG: γD: δE: εZ: ζH: η
如果需要, 原子名称的最后一个字符可以代表分支标识符。
79-80的位置是电荷位置,一般写作2+  1-  这样的格式,更多的时候这里是留空的。
以上啰嗦这么多只是为了向大家介绍一下PDB文件的查看规则和强迫症一样的列敏感写入方式。


2.PDB文件获取


以下部分参考了卢天老师的推文http://sobereva.com/43

0(孤独求败,故设为0)



RCSB PDB数据库:http://www.rcsb.org/pdb/home/home.do
简介:五星级重要的数据库,汇集实验表征以及少数由模拟预测方法获得的蛋白质/核酸结构,可下载或在线观看。目前已经收录172560结构(2020.12.16),每个结构都有唯一的PDB ID。

01NCBI的结构数据库:https://www.ncbi.nlm.nih.gov/protein/简介:该数据库包含来自多种来源的蛋白质序列记录,包括GenPept,RefSeq,TPA,Swiss-Prot,PIR,PRF和PDB。其中不仅有测到的结构数据,还有一些从核酸序列翻译而来的蛋白质序列文件。


02PDBbind-CN:http://www.pdbbind.org.cn/index.asp简介:上海有机所维护的数据库,该数据库收集了RCSB数据库中筛选出来的生物大分子复合物。包含蛋白质-配体、核酸-配体、蛋白质-核酸、蛋白质-蛋白质等复合物。目前有21382条记录。可以在线观看或下载结构,可根据配体名称、结构搜索含有此配体的复合物。


03MOAD:http://www.bindingmoad.org简介:是RCSB数据库的子集,专门收录蛋白-配体复合物的信息,目前有38702蛋白质-配体结构。可以根据配体,或者根据蛋白酶的EC分类、功能查询。


04sc-PDB:http://bioinfo-pharma.u-strasbg.fr/scPDB简介:收集了RCSB数据库中含有可以为药物结合的位点的蛋白。可根据配体、蛋白、结合方式为特征进行搜索。


05PDBTM跨膜蛋白质数据库:http://pdbtm.enzim.hu简介:收集了RCSB蛋白质数据库中所有跨膜蛋白。

数据库里搜索到的信息会有很多,比如在RCSB中搜索Hemoglobin会出现2500+命中数据,具体该使用那种,还需要使用更精确关键词进行进一步筛选。


*本期附件获取:
公众号后台回复—20201218


一次性get!6种pdb文件获取方式(附李继存老师翻译版)的评论 (共 条)

分享到微博请遵守国家法律