临床蛋白质组学数据知识图谱
网络和图表已经成为表示连接数据的自然方式,过去十年的努力已将大量不同的信息组织为节点(实体)和边(关系)的集合。由此产生的灵活结构,称为知识图谱,可以快速适应复杂数据及其关系,并能够有效地使用网络分析技术来识别隐藏的模式和知识。
蛋白质组在过去的十年中已取得了长足的进步,为生物过程、细胞信号传导和蛋白质相互作用提供了越来越多的数据。然而,快速增长的数据量对该领域提出了新的挑战。高通量蛋白质组学中一个瓶颈是难以解释定量结果,对生物学或临床假设的验证提出了考验。目前,仅有少数工具旨在缓解这个问题。因此,我们需要一种集成多种数据类型的解决方案,实现同时获取分子及其对应的疾病表型之间的关系。此外,我们需要那些缺乏专业知识的人提供工具,以用户友好的方式从蛋白质组学数据中提取高质量信息。因此,建立一个基于知识的平台,将一系列数据库和科学文献信息与组学数据集成到易于使用的工作流程,将为发现科学和临床实践提供支持。
Matthias Mann 在2022年1月31日发表在Nature Biotechnology上的“A knowledge graph to interpret clinical proteomics data”就基于临床相关的实验数据、公共数据库和文献,建立了一套开源平台:临床知识图谱 (CKG),目前包含近 2000 万个节点和 2.2 亿个关系。CKG 结合了统计和机器学习算法,可加速蛋白质组学工作流程的分析和知识挖掘。
代码:
https://github.com/MannLabs/CKG
CKG包括几个独立的功能模块:
(1)格式化和分析蛋白质组学数据(analytics_core);
(2)通过整合来自一系列可公开访问的数据库、用户进行的实验、现有本体和科学出版物的可用数据,构建一个图形数据库(graphdb_builder);
(3)连接和查询这个图形数据库(graphdb_connector);
(4)通过在线报告(report_manager)和Jupyter notebooks促进数据可视化、存储和分析。这个架构无缝地协调和整合了数据以及用户提供的分析。它还促进了数据共享和可视化,以及基于详细的生物医学知识注释的统计报告的解释,产生了临床相关的结果。
1. analytics Core
蛋白质组学数据下游分析的第一步需要一个全面的、多功能的统计、机器学习和可视化方法的集合。该工作组选择了Python及其相关的科学堆栈,在分析核心中实现的功能以统计和视觉数据表示为中心,涵盖所有主要的计算领域,如表达、相互作用和翻译后、基于修饰的蛋白质组学(图1b)。
其设计的分析核心包括数据科学管道的主要步骤:数据准备(过滤、规范化、估算和数据格式化)、数据探索(汇总统计、排名和分布)、数据分析(降维、假设检验和相关性)和可视化。分析核心整合了除蛋白质组学之外的其他数据类型的分析(即临床数据、多组学、生物背景和文本挖掘)。

临床知识图谱架构

CKG图数据库数据模型旨在整合多层次的临床蛋白质组学实验,并用生物医学数据对其进行注释。
2. Graphdb Builder
为了实现蛋白质组学数据与其他全能实验或文献信息的无缝注释和整合,该工作构建了一个能自然连接大型异质数据的图形数据库。为了构建知识图谱,该工作首先编写了一个解析器库(graphdb_builder),为每个本体、数据库和实验类型提供相关配置。这些解析器从在线资源中下载数据,提取信息并生成实体和关系,两者在蛋白质节点中都可以有属性,如名称或描述。解析器使用配对的配置文件,指定需要如何解释本体、数据库或实验。
一旦本体、数据库和实验文件被标准化、格式化和导入,graphdb_builder模块就会用一组Cypher查询将它们加载到图数据库中,从而创建相应的节点和关系(方法)。
3.Graphdb Connector graphdb_connector
提供连接和查询CKG数据库的功能。这个模块依赖于Neo4j。它使用Python库py2neo,能独立于平台中的其他功能,这使得与数据库的互动不可知,有利于适应和扩展。同样,在整个平台上用Cypher语言对数据库的查询也被定义为YAML对象,其结构使它们可以被找到(名称、涉及的节点和关系)和被理解(描述),并易于替换。
4.Reportmanager & Jupyter notebooks
报告管理器是一个与CKG数据库中现有项目对接的工具。这个功能模块利用分析核心来分析项目数据并生成交互式图表,然后用这些分析结果创建详细的报告。新的报告管道可以用配置文件(YAML格式)来定义,描述数据处理中要使用的参数,以及要执行的分析顺序。该结构要求用户为每个分析的配置指定要使用的数据(数据框架的名称)、分析列表和可视化结果的图表(分别是分析核心中的函数:analytics和viz)、是否将结果存储为数据框架以及分析和可视化需要的参数。
该工作将 Jupyter notebooks作为CKG平台的另一个组成部分,主要是以下三个方面上因素上的考虑:(1)作为测试和开发新的分析和可视化的平台;(2)解释如何使用CKG的Python库;(3)能作为已发布的案例研究进行再分析的资源库,可以共享、复制和重用。

report_manager 模块包括一组仪表板应用程序
参考文献
Santos A, Colaço AR, Nielsen AB, et al. A knowledge graph to interpretclinical proteomics data. Nat Biotechnol. 2022;
10.1038/s41587-021-01145-6.doi:10.1038/s41587-021-01145-6.