欢迎光临散文网 会员登陆 & 注册

GNPS使用方法总结

2022-01-07 14:51 作者:菜鸟博士_杂货铺  | 我要投稿

GNPS使用方法总结

菜鸟博士Caesar分享快乐

请问全球自然产品社交分子网络(GNPS)这个网站要怎么操作!!?

分子网络支持mzXML,mzML和mgf文件格式,要将文件转换为适当的格式。
要将文件上传到GNPS进行分析,首选方法是使用FTP客户端。这提供了一种强大的批处理方式来上传许多文件。例如Winscp
在GNPS主页上,单击“创建分子网络”按钮。
首先单击“选择输入文件”,选择要分析的文件。
这会带来一个弹出窗口。我们可以选择自己的文件进行分析。
或者,如果我们知道数据集的登录名(Browse Datasets),则可以导入现有的公共数据集。在“选择输入文件”弹出窗口中,您将成为共享文件选项卡。在那里,您会找到一个名为“导入数据共享”的框。在此框中,您可以输入MassIVE数据集的一部分。单击导入后,数据集将出现在您的工作区中,以选择要分析的输入文件。
默认情况下,可以将文件分类为单独的组(G1,G2等)。例如,病例和对照或两个不同的微生物可以是单独的组。使用基本选项,只能创建六个组。可以选择单个文件或整个文件夹。
单击完成选择,这将关闭弹出窗口。
参数预设¶
根据数据集的大小,我们有几个参数预设看起来效果很好。

  1. 小型数据集-最多5个LC / MS文件

  2. 中型数据集-5至400个LC / MS文件

  3. 大数据集-400多个LC / MS文件

提交工作流程后,将被带到状态页面。分子网络通常需要

  • 小型数据集10分钟

  • 中等数据集1小时

  • 大型数据集需要几个小时

使用GNPS完成分子网络工作流程后,可以在Web界面内进行分析。GNPS Web界面提供了一种快速简便的方法来对数据进行初始分析,尤其是当您要查看由分子网络工作流程生成的节点/簇/网络的MS2光谱时。


天然产物图集:微生物天然产物的开源宝库


费米子父

Gachon University 药学系研究教授
关注他


24 人赞同了该文章


The Natural Products Atlas: An Open Access Knowledge Base for Microbial Natural Products Discoverypubs.acs.org/doi/10.1021/acscentsci.9b00806pubs.acs.org/doi/10.1021/acscentsci.9b00806


尽管微生物天然产物化学领域发展迅速,但目前尚无包含所有微生物产生的天然产物结构的开放获取数据库。这些数据的缺乏阻碍了自然产品科学中新技术的实施。具体而言,由于缺乏用于比较实验数据的已知化合物的全面数据库,阻碍了用于化合物表征和鉴定的新计算策略的发展。建立由社区维护的微生物天然产物结构的开放访问数据库,将能够开发天然产物发现中的新技术,并改善现有天然产物数据资源的互操作性。然而,这些数据在包括期刊文章和国际专利在内的整个历史科学文献中分布不均。这些文档没有标准格式,通常不会被数字化为机器可读文本,也不会公开提供。此外,这些文档都没有关联的结构文件(例如,MOL,InChI或SMILES),而是包含结构的图像。这使得相关天然产品数据的提取和格式化成为一个巨大的挑战。结合使用人工策展和自动数据挖掘方法,我们创建了微生物天然产物数据库(The Natural Products Atlas,此外,这些文档都没有关联的结构文件(例如,MOL,InChI或SMILES),而是包含结构的图像。这使得相关天然产品数据的提取和格式化成为一个巨大的挑战。结合使用人工策展和自动数据挖掘方法,我们创建了微生物天然产物数据库(The Natural Products Atlas,此外,这些文档都没有关联的结构文件(例如,MOL,InChI或SMILES),而是包含结构的图像。这使得相关天然产品数据的提取和格式化成为一个巨大的挑战。结合使用人工策展和自动数据挖掘方法,我们创建了微生物天然产物数据库(The Natural Products Atlas,www.npatlas.org),包括24 594种化合物,并包含有关结构,化合物名称,来源生物,分离参考,总合成和结构重新分配实例的参考数据。该数据库附带一个交互式Web门户,该门户允许按结构,子结构和物理属性进行搜索。该网站还提供了可视化天然产品化学空间的机制以及用于显示作者和发现时间轴数据的仪表板。这些交互式工具通过用于结构和基于属性的搜索的中央界面,为天然产物的发现提供了强大的知识库,并提出了有关天然产物的结构多样性的新观点。天然产品地图集是根据公平原则(可查找,可访问,可互操作,和可重复使用),并与其他新兴的天然产物数据库集成在一起,包括有关生物合成基因簇(MIBiG)信息库的最低限度信息和全球天然产物社会分子网络(GNPS)平台。它被设计为社区支持的资源,以为微生物已知的天然产物结构提供一个中央存储库,并且是这种类型的第一个全面的开放获取资源。预计“天然产品地图集”将支持开发新的天然产品发现方式,并加快复杂天然产品库的结构表征过程。以及全球自然产品社交分子网络(GNPS)平台。它被设计为社区支持的资源,以为微生物已知的天然产物结构提供一个中央存储库,并且是这种类型的第一个全面的开放获取资源。预计“天然产品地图集”将支持开发新的天然产品发现方式,并加快复杂天然产品库的结构表征过程。以及全球自然产品社交分子网络(GNPS)平台。它被设计为社区支持的资源,以为微生物已知的天然产物结构提供一个中央存储库,并且是这种类型的第一个全面的开放获取资源。预计“天然产品地图集”将支持开发新的天然产品发现方式,并加快复杂天然产品库的结构表征过程。
概要
天然产物图集是一个新的微生物衍生天然产物结构在线数据库,旨在作为科学界的全面开放获取资料库。
介绍
天然产物领域正处于快速创新和技术进步的时期,因为开发了用于公正地表征天然产物混合物的新工具。(1)这些方法包括化学方法,(2)生物学方法,(3)和生物信息学方法(4,5),这些方法扩大了我们对天然产物的多样性,分布和功能的看法。然而,尽管该领域发展迅速,但目前尚无包含所有微生物生产的天然产物结构的开放获取数据库。这些数据的缺乏阻碍了这一领域新思想和新方法的实施。其中许多策略,例如质谱碎片化模式的预测,(6,7)依靠已知化合物数据库的可用性来与之比较实验数据。此外,由于缺乏共识结构数据集,因此无法整合来自不同天然产品表征平台(例如MIBiG (8)和GNPS (9))的信息,从而限制了这些单独资源的互操作性。
微生物天然产物数据库的当前格局很大,但支离破碎。现有的数据库要么是商业数据库,不能使所有结构都可访问(例如Antibase,MarinLit,《天然产物词典》),要么是免费的,但是关于化合物来源的信息有限(例如,Supernatural II (10)),不容易下载(例如NPEdia)或狭义定义(例如StreptomeDB,(11) AfroDB,(12)和NuBBE DB (13))。此外,大多数现有数据库没有得到正确的引用,许多数据点都没有提供有关其主要来源的详细信息。缺少准确的参考限制了这些数据的价值,从而阻止研究人员轻松评估原始资料的准确性和有效性。社区可以使用许多天然产品数据库(表1),每个数据库都提供不同的内容和分析工具。然而,这些都没有按照公平原则对微生物天然产物的结构进行全面介绍。(14)因此,我们选择创建一个新的微生物天然产物数据库,称为天然产物图集(www.npatlas.org)。

a 天然产物大辞典数据库

Dictionary of Natural Products 28.1dnp.chemnetbase.com/dnp.chemnetbase.com/


b 海洋天然物文献数据库

A database of the marine natural products literaturepubs.rsc.org/marinlit/pubs.rsc.org/marinlit/


c 微生物数据库

https://www.wiley.com/en-us/AntiBase%3A+The+Natural+Compound+Identifier-p-9783527343591www.wiley.com/en-us/AntiBase%3A+The+Natural+Compound+Identifier-p-9783527343591www.wiley.com/en-us/AntiBase%3A+The+Natural+Compound+Identifier-p-9783527343591


d 链霉菌属细菌的天然产物数据库

StreptomeDB132.230.56.4/streptomedb2/132.230.56.4/streptomedb2/


(原网址: http://www.pharmaceutical-bioinformatics.de/streptomedb2/).
e 主要和次要代谢物以及天然大分子的化学结构

SuperNatural Database V2bioinf-applied.charite.de/supernatural_new/index.phpbioinf-applied.charite.de/supernatural_new/index.php


f 来自植物和微生物的天然产物,侧重于结构特征

RIKEN Chemical Biology Department Natural Products Encyclopedia (RIKEN NPEdia)www.cbrg.riken.jp/npedia/?LANG=enwww.cbrg.riken.jp/npedia/?LANG=en


g 非洲药用植物的天然产物下载链接如下

AfroDb: A Select Highly Potent and Diverse Natural Product Library from African Medicinal Plantsjournals.plos.org/plosone/article?id=10.1371/journal.pone.0078085journals.plos.org/plosone/article?id=10.1371/journal.pone.0078085


也可搜索ZINC下载

ZINC AfroDb Natural Productszinc.docking.org/catalogs/afronp/zinc.docking.org/catalogs/afronp/



h 从巴西分离出的天然产物

https://nubbe.iq.unesp.br/portal/nubbe-search.htmlnubbe.iq.unesp.br/portal/nubbe-search.htmlnubbe.iq.unesp.br/portal/nubbe-search.html


至少任何天然产物数据库都应包含有关化合物结构,名称,生产生物和分离参考的信息。即使从原始文献中提取所有微生物天然产物的这些基本数据也是一个具有挑战性的目标。早在1800年代末就已经报道了其结构(例如,多孔酸,1877年(15))。在此期间,文章的版式(例如,结构表示)和样式(例如,用语和术语)都发生了显着变化,这使得很难为整个科学文献中的文本挖掘定义规则。此外,天然产物科学是一门国际学科,发现发现以英语以外的多种语言进行报道,这限制了基于文本的文章优先级的选择。最后,许多早期期刊文章要么不可用,要么仅以图像形式提供,因此不适合用于自动数据提取。
天然产物的结构已被广泛的期刊报道,大大扩大了搜索范围。此外,尽管PubChem,ChEMBL,ChemSpider和其他资源提供了出色的覆盖范围,但是当前并非所有结构都可以在开放访问结构存储库中使用。当与结构分配不当,结构重新分配,同义词创建和分类修订等问题结合在一起时,也许很清楚为什么目前没有这样的数据库可供公众使用。
为了解决这个问题,我们创建了一个新的自动化策展平台,旨在识别与天然产物发现有关的物品,并提取相关信息以进行最终的手动验证(图1和支持信息

)。通过这项策划工作,我们从10 481篇期刊文章中提取了24 594种化合物,涵盖306种期刊标题。将这些结果插入到MySQL关系数据库中,并创建了一个交互式在线Web门户以允许搜索,过滤和可视化数据集。该在线知识库包含越来越多的已发布微生物天然产物,旨在鼓励天然产物社区进行更多的数据沉积和管理。为此,我们引入了在线工具来存储新数据和更正现有数据。希望这种以社区为驱动力的模型将有助于确保数据的高质量,将改善数据库的总体覆盖范围,并有助于该资源的长期可持续性。

图1.天然产品图集的创建和管理工作流程。

结果与讨论
天然产物图集的结构
天然产物图集项目旨在创建一个所有微生物衍生的天然产物的综合数据库,并使研究社区可以免费访问该数据库。数据库的长期愿景是:

  • 主要文献和专利

  • 所有微生物天然产物的结构,化合物名称和同义词

  • 物理化学数据(旋光,红外和紫外线吸收以及与核磁共振和质谱数据库的直接链接)

  • 生物活性数据

  • 全合成的所有实例

  • 所有结构调整

  • 原始生产生物的分类

  • 所有生产生物的完整列表


此外,数据库应符合以下要求:

  • 所有数据均已完全引用

  • 条目包括每种化合物的原始隔离纸(首次报告完整结构的实例)

  • 策展和优化应由社区推动

  • 数据是开放访问的并且可以完全下载


在此初始发行版中,我们已经实现了许多目标,同时保留了其他目标以供将来扩展。具体来说,我们集中研究了1941年至2018年期间主要科学文献中的数据。当前,这些条目既包括原始隔离名称,又包括原始名称(针对生产生物)。在一大批志愿策展人的贡献下,我们已整合了此期间的〜25 000种微生物天然产物结构。要获得最高价值,天然产品图集应与其他天然产品数据资源相关。我们已投入大量精力进行管理,以在“天然产物图集”与MIBiG(生物合成基因簇数据库)和GNPS(天然产物质谱数据数据库)之间建立准确的联系。此外,

化合物选择
对于“天然产物”,可能没有一个单一的定义能满足该领域的所有研究人员的需求。但是,我们需要一套关于化合物包合的指导原则,以构建天然产物图集。对于该应用,“天然产物”定义为由微生物产生的分子量小于3000 Da的任何天然代谢产物。KEGG数据库定义的主要代谢物(16)被排除在外。如果在野生型生物中检测到,则包括来自生物合成基因簇的分流产物,但如果仅通过基因操作发现,则排除在外。如果在自然界中可能已经发现这些原料(例如,蛋白质氨基酸),则包括使用生物合成原料来增强发酵培养基的化合物,但如果是合成来源的化合物(例如,对氟苯丙氨酸),则将其排除在外。最后,排除了通过生物转化产生的化合物(通过用不同生物进行微生物发酵来修饰纯化的天然产物)。

分类边界
许多边缘情况也使微生物的定义复杂化。我们选择将地衣和宏观真菌(Basidiomycetes)的天然产物都包括在内,因为它们在大多数现代生物分类学本体中都被归类为真菌。我们包括蓝细菌,但不包括真核浮游植物和其他光合微藻。此外,一些分类学分配已随着时间而改变,这意味着原始文献中报道的属和种现已被重新分配。当前,天然产品图集包含最初定义的生物分类分配。未来的目标是使这些分类任务与综合分类识别系统(ITIS; www.itis.gov)保持一致)。这将提供对物种分配的自动更新,并改善与其他基于分类法的资源的互操作性。

天然产物图集结构
Natural Products Atlas知识库分为三个主要部分:搜索,探索和发现(图2)。搜索页面(图2 A)提供了几种不同的搜索方式,旨在优先考虑易用性和灵活性。基本的搜索页面允许使用一系列术语进行快速搜索,包括结构,名称,分类法等。都可以进行子结构和相似结构搜索,从而使研究人员可以根据部分结构重复复制分离的化合物,或者将新化合物与已知天然产物的结构多样性进行比较。高级搜索页面允许进行更复杂的布尔搜索(例如,分子量范围x和日期范围y),并允许结构和文字标准的组合。这些搜索的结果在线显示在分页表中,也可以导出以供离线使用。例如,如果研究人员正在研究给定的属,并希望在专有软件包(例如LCMS软件)中创建复合参考库,则他们可以在基本搜索页面中搜索属名称,然后将完整结果集导出为一个文件。

图2.(A)搜索界面(基本搜索)。(B)探索视图(化合物),(C)探索视图(作者)

探索部分(图2 B)提供了有关天然产物化学空间中化学相似性的不同观点。提供了四个级别的分辨率:复合,群集,节点和全局。这种可视化效果类似于Google Maps等地图应用中的房屋,城镇,省和地球的视图。化合物页面(图3 A)提供有关每种化合物的详细信息,并包括各种数据类型的导出(化合物MDL MOLfile,化合物图像,所有化合物数据的完整TSV文件)。该页面还提供了原始隔离参考文献,总合成实例和结构重新分配实例的引用,每一个实例均附带一个指向期刊文章页面的DOI超链接。

图3. Explore部分中的四个视图。(A)化合物视图,提供单个化合物的数据。(B)簇视图,说明具有紧密结构相似性的化合物。(C)节点视图,显示了关系更远的化合物簇。(D)全局视图,显示了“天然产品地图集”中所有化学空间的分布。

群集页面(图3 B)显示了天然产物图集中具有相似结构相似性的化合物组。结构相似性由Morgan指纹图谱(半径= 2)和Dice相似度评分(0.75截止)定义。该工具使用户可以轻松地可视化数据集中相似结构的范围和多样性。下一个可视化层(节点)说明了在复合类级别上群集如何相互关联。这些关系是通过获取每个群集中相互联系最紧密的成员,然后使用不太严格的相似性评分方法(原子对指纹和Dice相似性评分(0.7截止))对这些群集代表之间的结构相似性进行评分来确定的。在节点网络中(图3 C),节点直径与每个节点中化合物的数量成正比。最后,全局视图(图3 D)显示了“天然产品地图集”中的所有节点,并以球状图的形式排列。该球面图中的节点分布是van Krevelen图的扩展(17),该图使用分子式中的C:H和C:O比率表示分子。在全局图中,C:H比定义极角(xy平面中的径向值),C:O比定义方位角值(与z轴),然后C:N比设置半径(距原点的距离)。因为这三个属性对于相同化合物类别的分子通常是相似的,所以节点基于化合物类型在全局视图中聚集。重要的是,此坐标系取决于复合物的物理特性,因此,随着时间的推移将新数据添加到Natural Products Atlas中时,现有节点的位置将不会改变。
Explore部分的所有层都是互连的,因此用户可以在从复合视图到全局视图之间进行导航(图3)。已经实施了节点突出显示来说明目标化合物在图中的位置。例如,如果用户从化合物页面开始(图3 A)并从那里导航到相应的集群(图3 B),则集群网络中与原始化合物相对应的位置将以红色突出显示。此高亮显示了遍历节点(图3 C)和全局(图3 D)视图的轨迹,这有助于用户浏览天然产物化学空间的这些表示形式。
此外,搜索结果可以投影到全局视图上,从而说明化合物子集在全局化学空间中的分布。例如,可以通过在基本搜索结构部分中搜索该组并单击结果页面上的“将所有结果投影到全局视图”,来可视化功能组的流行和分布。这将生成全局可视化,其中包含该功能组的每个节点都以红色突出显示。在包含吡啶基序的化合物的子结构搜索中,返回了791个化合物,这些化合物在化学空间中的分布可以通过投影到全局视图来显示(图4)。可以为搜索词的任何组合生成类似的可视化效果,这使它成为检查微生物天然产物化学空间中结构或分类现象分布的通用工具。

图4.整体图,显示了所有含有吡啶官能团作为亚结构基序的天然产物的位置

“发现”部分(图2 C)是一组仪表板,旨在提供有关天然产品多样性的替代观点。当前,天然产品图集包含三个仪表板:概述,作者和已知化合物。概述仪表板提供有关数据库中化合物和分类法的内容和分布的常规统计信息。作者仪表板从ORCID数据库(https://orcid.org)中检索给定作者的所有链接出版物。),并显示有关在这些出版物中发现的化合物的信息,包括发现时间表,期刊分布以及化合物和引文链接。已知化合物仪表板概述了数据库中当前化合物的相关数据,包括发现簇成员的时间和相关化合物的结构。
可以预见的是,随着用户要求仪表板显示有关数据的其他观点,网站的这一部分将随着时间的推移而增长。例如,集成了来自质谱或核磁共振数据的去重复工具的仪表板是可能的,并且可以想象对于天然产物社区具有很高的价值,可用于从光谱数据中快速识别候选结构。

开放数据模型
开放数据原则对于天然产品图集的设计至关重要。致力于开放数据模型对于招募志愿策展人和从天然产品界获得支持至关重要。按照这些原则,该数据库受Creative Commons Attribution 4.0 International许可保护,并且所有数据都可以作为单个平面文件下载。或者,可以将搜索结果下载为选定的数据文件,以进行简单的数据过滤,并且可以直接从化合物页面以标准格式下载单个化合物的数据。Web界面设计为易于其他资源链接。为了便于创建指向各个页面的链接,每个复合页面URL均以Natural Products Atlas ID号(NPAID)结尾,使自动生成超链接变得简单明了。此外,网站上的所有页面都是打开的,不需要登录凭据,但用于数据沉积的页面除外。

数据库版本控制
Natural Products Atlas基础结构包括对数据库版本的支持。这很重要,因为添加新化合物会影响化合物簇和节点的内容和编号。例如,添加新的混合结构可能会在先前分开的两个群集之间创建链接。对于使用这些数据进行复杂研究的研究人员来说,这可能令人非常沮丧。为了解决这个问题,该网站默认提供最新数据,但允许用户通过下拉菜单指定任何以前的数据库版本。也可以从下载部分下载数据库的任何先前版本。

数据库建设
天然产品地图集数据库由de novo创建使用两阶段过程搜索主要文献。最初,我们选择了30种已知包含报道新颖天然产物发现文章的期刊。使用一个简单的评分系统将标题和摘要文本与肯定和否定关键字列表进行比较。例如,“结构阐明”和“天然产物”是积极的关键词,而“有机金属”和“精油”是负面的得分驱动因素。此外,我们基于大多数化学文章都与天然产物的发现有关,对包含一个或多个微生物属名称(不包括常见病原体)的任何文章进行优先排序。得分高的文章使用内部策展软件工具进行格式化,以供人工审核,并进行更正以确保化合物名称,结构,每篇文章的来源有机体和引用信息均准确。使用这种方法,研究小组手工审查了约3万篇文章,以创建最初的12 924种化合物。手动审查选定的期刊年份表明,该方法约占所有相关文章的80%。
最初的手动策划工作产生了大量的文章标题和摘要培训集,分为两组。与天然产物发现有关的文章,以及与天然产物分离无关的文章。该训练集非常适合用于机器学习应用程序。使用支持向量机(SVM)模型,我们扫描了90种优先期刊(1941-2018)的标题和摘要,以识别描述微生物天然产物发现的文章。使用内部文本挖掘工具从标题和摘要中提取化合物名称,并在可用的情况下从公共数据库(PubChem,ChEMBL,ChemSpider)中提取相关的化学结构。最后,使用CrossRef确认引文和DOI信息,并使用内部在线策划平台手动审核每篇文章的完整数据。按照这种方法,我们又审查了14700篇文章,共产生13236种化合物。为了扩充此数据集,我们根据常见化合物名称,优先级属和目标作者进行了手动搜索。这些搜索填补了数据集(例如,不完整的化合物家族)中的空白,并捕获了我们最初的90种期刊中未包括的期刊中的化合物。有关数据管理的更多详细信息,请参见 不完整的化合物家族)和未包含在我们最初的90种期刊中的期刊中捕获的化合物。有关数据管理的更多详细信息,请参见 不完整的化合物家族)和未包含在我们最初的90种期刊中的期刊中捕获的化合物。有关数据管理的更多详细信息,请参见支持信息



资料验证
在插入Natural Products Atlas之前,所有数据都经过验证,以确保数据标准化并消除数据重复。该验证工具包含30多项检查,包括引文验证(例如,允许的期刊名称列表中包含期刊名称吗?),分类学验证(该属是否属于原核生物列表中经过验证的细菌或真菌属列表)?具有命名法(LPSN)(18)或MycoBank?(19)的名字)和结构验证(该结构是否已存在于数据库中?)。结构验证特别重要,因为相同的结构在文献中可能存在不同的同义词和不同级别的配置分配。如果不仔细检查,这些结构将作为独立的条目输入,从而错误地增加了数据库中条目的数量。有关数据验证的更多详细信息,请参阅支持信息



天然产物图谱识别号
通过验证步骤的商品将插入数据库中,并且为每个新化合物分配一个唯一的天然产品图集识别号(NPAID)。这些NPAID为每种天然产物提供了固定的参考,与结构,分类法或引文数据无关。这是Natural Products Atlas基础设施的重要组成部分,因为这意味着即使更新或纠正了核心信息(例如结构或分类法),也可以维护与化合物的链接。这样可以提高与其他资源的互操作性,并为在数据库扩展时将保留的每种化合物提供一个稳定的参考点。

与其他天然产品数据库的连接
现在,存在许多在线存储库,其中包含与微生物天然产物有关的数据。例如,在生物合成领域,有关生物合成基因簇数据库(MIBiG)的最低限度信息包含约1800种生物合成基因簇及其相关天然产物的数据。该资料库包括指向描述这些基因簇的相关手稿的链接,并包括突出显示数据库中其他相关基因簇的工具。在分析化学领域,全球天然产物社会分子网络数据库(GNPS)包含大量基于天然产物的数据集的质谱分析和碎片数据,并整合了一套不断增长的工具,用于比较样品与样品之间的光谱碎片光谱的新预测。
不幸的是,在许多情况下,独立天然产物资源之间的整合很差。这是由于数据库之间化合物含量的变化以及化合物结构和琐碎名称标准化的挑战。天然产品图集已与MIBiG和GNPS的开发人员合作,以标准化三个平台之间的结构表示,并创建指向每个数据库的双向链接。在任一平台上都有条目的化合物将显示指向化合物页面上相应数据库的链接。此外,可以使用“高级搜索”部分中的术语来搜索和过滤“天然产品地图集”数据,以仅包括在一个或两个数据库中都有条目的化合物。
天然产品图集的价值
天然产品图集不是提供静态的天然产品结构列表,而是为用户提供一个用于天然产品发现的交互式门户。随着数据集规模的增加,用于数据过滤和可视化的方法对解释的影响越来越大。天然产品图集的用户界面包含一套可视化工具,我们设想将通过从各种不同角度展示化合物和搜索结果为天然产品界提供价值。期望这些工具将在一系列主题领域中实现新的发现模式,包括天然产物分离,药物化学以及天然产物光谱数据的计算预测。
对于天然产物的分离,基本的搜索页面可以用于基于光谱特征快速重复复制化合物。可以通过准确的质量值(来自质谱)或存在一个或多个官能团(来自NMR或MS / MS数据)来过滤数据集。如果已知来源生物,则可以基于分类法过滤这些结果,方法是仅选择细菌或真菌化合物,或者将结果限制为特定属。如果需要多个属,则“高级搜索”页面提供了一组扩展的选项,用于构建更复杂的查询。
基于结构的搜索窗格可以以几种不同的方式使用。使用“完整结构”选项可以将结构直接与现有数据集进行比较。如果定义了手性中心,则结果将限于直接匹配。如果未定义手性中心,则将所有具有相同平面结构的分子作为候选匹配项返回。可通过“子结构”选项进行子结构搜索。此选项允许在单个查询中包含一个或多个子结构,从而允许用户从部分NMR结构信息中识别候选匹配结构。最后,可以使用“相似性阈值”选项来识别与结构相关的化合物。该选项对于将新发现与已知的天然产物化学空间结合起来非常有价值。例如,
可以使用“探索”部分中的工具进一步探索在化学空间中定位的概念。例如,如果在发现项目中识别出已知化合物(例如,胍基丁烯E,(20) NPAID 2040),则“聚类”页面可用于确定在同一聚类中具有紧密结构相似性的其他已知天然产物(聚类1223,图5A)。切换到Node视图(Node 198,图5B)揭示出这组化合物还与许多其他结构相关,一些结构紧密相关(例如,簇593),而更远的其他结构(例如,簇504)。在高级搜索页面中搜索节点198将提供可下载的结果表,其中包含该节点所有成员的相关数据,包括结构,分类法和隔离参考,从而可以对现有相关文献进行更详细的评估。此搜索方式与从简单相似性搜索中获得的结果不同。“节点”视图包括群集的“链接”,以突出显示从相似性搜索返回的具有更远结构关系的化合物。这突出了全套已知微生物天然产物中的常见结构基序和变异位点,

图5.(A)胍卡丁烯E(NPAID 2040,红色圆圈)和相关化合物的簇视图。(B)胍卡丁烯E的节点视图,显示了相关簇(紫色六边形)的分布和连通性以及每个簇的示例结构。

天然产品图集还为药用化学家提供了许多有价值的资源。在最简单的层次上,子结构搜索可用于识别包含目标药效基团特征的化合物。还可以根据全合成报告对化合物进行过滤,突出显示已存在合成路线的分子或尚未报告全合成的化合物簇。在确定了特定化合物感兴趣以进行进一步开发的情况下,可以使用群集和节点视图来探索结构特征的自然变化,并且在存在已发布活动数据的情况下,可以按化合物类别来探索SAR特征。最后,来自天然产品图集的数据可用于识别化学空间区域,而不是被特定的复合类占用。该信息可用于设计围绕特定支架的非自然多样性文库,或用于创建包含自然界中这些类别中未遇到的特征和功能基团的自然产物模拟物。
最后,该数据库为旨在预测天然产物光谱特性的工具提供了有价值的参考集。例如,包含预测的NMR化学位移或MS / MS碎片图谱的数据集可用于改善复杂混合物中未知代谢物的注释。确实,来自Natural Products Atlas的数据已经被合并到GNPS的网络注释传播工具中,并计划支持其他计算机软件,包括DEREPLICATOR和DEREPLICATOR +。(7)这些工具通过将实验碎片图谱与化合物结构库中预测的碎片图谱进行比较,从而根据质谱碎片化数据预测化合物的身份。天然产物图谱中包含的结构增加了可用化学空间的覆盖范围,提高了参考集中具有理论碎片光谱的已知化合物的百分比。在类似的未来方向上,有关不同生物合成天然产物类别的官能团的分布和分组的详细知识可能对预测生物合成基因簇中假设蛋白质的功能以及在大型基因组测序中关联生物合成基因簇和化合物类别具有重要价值。项目。

许可条款
天然产品地图集受知识共享署名4.0国际许可(CC BY 4.0)的保护。该许可证意味着用户可以自由共享和修改数据库,前提是他们要归功于Natural Products Atlas,提供CC BY 4.0许可证的链接并指出是否进行了任何更改。完整的许可条款可在https://creativecommons.org/licenses/by/4.0/中找到。

维护和未来扩展
社区参与对于天然产物图谱的长期生存至关重要。目前,该数据库以每年约1200种化合物的速度增长,主要是通过此手稿作者的精心策划。我们希望,随着“天然产品图集”(Natural Products Atlas)的概况增加,由于平台中提供了注释工具,因此将激励用户沉积新化合物。为了促进用户贡献,我们创建了一个“存款”页面,研究人员可以在其中轻松上传新文章中的数据。沉积仅需要DOI,化合物名称,SMILES结构以及生产生物的属和种即可。如果作者拥有可用的结构文件,我们希望大多数文章可以在5分钟之内寄出。同样,我们创建了一些页面来报告更正和对现有条目的添加。这些页面每个都需要少于五个信息,并且包括文本和结构绘图工具,作为在需要时报告结构更正的选项。
除了引入新化合物外,还需要不断努力以提高对历史文献的报道。为了扩大我们在这一领域的覆盖范围,我们继续创建有针对性的工具来突出显示缺失的化合物。例如,现有数据库中化合物的名称可用于识别化合物系列中缺少的成员(例如salinipostins A–K),然后将其作为文献搜索的目标。为了补充这项工作,我们正在探索各种方案,以整合来自学术界和工业界的相关数据库中的数据,以提高过去几十年来化合物的覆盖率。
除了扩展数据库之外,我们还旨在增加“天然产品地图集”中包含的数据类型以及可用于数据分析的工具范围。这项工作是我们不断开发平台的一部分,并得到了众多利益相关者的投入。未来可能的扩展包括:

  • 分类学分类的扩展,以包括更高的名称(门,阶等)

  • 增加生物合成课程

  • 增加专利文献的覆盖范围

  • 增加发现仪表盘的数量和种类

  • 增加了结构重新分配和总合成数据的覆盖范围

  • 创建完整的应用程序编程接口(API)


MySQL数据库和JavaScript前端在设计时都考虑了可伸缩性。因此,基础设施已经到位,可以将内容扩展到微生物天然产品以外。有了适当的资源和社区的充分参与,天然产品图集将处于有利位置,可以整合海洋无脊椎动物的天然产品,并最终整合植物的天然产品。
结论
天然产物图集是第一个完全基于FAIR原理的微生物天然产物结构的完全开放获取的知识库。它包含一套交互式可视化工具套件,可探索微生物天然产物的化学多样性,并且可以完全搜索和下载,从而使研究人员可以从各种各样的不同角度查询和过滤数据。数据管理和在线可视化的基本框架都是可扩展的,可以很容易地扩展到其他类别的源生物。我们希望,天然产物图集将成为与微生物天然产物结构相关的工具和资源的中心参考点,并希望这将促进集中于多种天然产物属性的数据集的整合。


GNPS使用方法总结的评论 (共 条)

分享到微博请遵守国家法律