欢迎光临散文网 会员登陆 & 注册

人工智能时代的天然药物发现【01】

2023-07-14 10:52 作者:AIDDPro  | 我要投稿

引言

在制药行业,机器学习算法已在药物发现管道中得到广泛应用。聚类方法已被用于细分细胞类型成像和预测蛋白质靶点的可药性,而监督学习技术已确定了疾病的潜在靶点并支持药物设计。机器学习还被用于预测生物活性以及与药物设计相关的特性,如吸收、分布、代谢、排泄和毒性(ADME/Tox)。生成算法有助于药物化学中新化学实体的分子设计

2019年,Insilico Medicine开发了一种名为GENTRL的人工智能系统,该系统利用了生成式张量强化学习。在短短46天内,GENTRL成功发明了6种与肺纤维化相关的激酶抑制剂。这展示了人工智能在加速新药发现和开发方面的潜力。天然产物(NPs)与治疗相关蛋白靶点相互作用的能力早已得到认可,使其成为药物发现的宝贵来源。然而,由于面临耗时的去复制过程和复杂的合成等挑战,主要制药公司对NPs的研究有所减少。

为了克服这些挑战,人们开发了计算方法来帮助生物活性NPs的发现和结构阐明,并捕捉分子模式用于组合设计或靶点选择性。化学信息学、生物信息学和其他信息学相关学科在基于NP的药物发现中发挥了重要作用。

近年来,人工智能(AI)机器学习(ML)算法开始融入天然产物研究。最初,人工智能的应用集中在有机分子的数字化和使用降维技术绘制NP化学空间图。后来,开发了ML二元分类器来预测NP的生物功能。最近,神经网络架构被用于基因组挖掘和分子设计。

计算机辅助天然产物的发现

2.1 从微生物基因组预测化学结构

生物活性天然产物(NPs)的发现传统上以快速分馏、联用色谱技术和天然来源(如植物、海洋无脊椎动物或微生物)的生物测定筛选为指导。基因组测序的最新进展揭示了NPs,尤其是微生物来源的NPs背后的遗传基础和生物合成逻辑。多酮合成酶(PKSs)、非核糖体肽合成酶(NRPSs)以及核糖体合成和翻译后修饰肽(RiPPs)等酶复合物负责生产这些次级代谢产物。

生物信息学工具机器学习算法基因组挖掘中发挥了重要作用,使得在微生物基因组中发现隐性生物合成基因簇(BGCs)和新型NPs的实验表征成为可能。机器学习算法已被用于研究新型BGCs和预测化学结构。例如,它们被用于预测RiPPs及其前体肽(PPs),以及识别RiPP识别元件(RREs)和发现新的核糖体肽。ML算法还被用于预测细菌BGCs中NPs的化学结构和生物活性。

除了发现新的化学实体,ML算法还被用于天然产物去复制过程的自动化。去复制包括从天然来源中提取、分馏和纯化NPs,然后进行生物测定筛选以确定生物活性物质。ML算法与先进的分析化学技术相结合,已被用于快速鉴定已知和未知的生物活性NPs。化学计量学是以多元统计分析为重点的研究领域,它也利用ML算法来分析来自各种分析技术的数据,并帮助鉴定NPs。

此外,ML算法还被用于代谢组学研究,从代谢组学数据中提取信息并产生新的生物学见解。它们促进了数据处理、omics数据的整合以及色谱保留时间的预测。有监督的ML算法,如随机森林、支持向量机(SVM)、人工神经网络和遗传算法在代谢组学研究中提供定量预测方面已显示出优势。

随着代谢组学中质谱(MS)数据量的不断增加,出现了各种代谢组学平台,如MetaboAnalyst 5.0和全球天然产物社会分子网络(GNPS)平台。GNPS将串联质谱数据集组织成可视化分子网络(MN),使用节点和边分别表示高分辨率谱和谱间比对。这种方法在NP去复制和其他NP相关研究中越来越受欢迎。

为了识别NP子结构,研究人员开发了CSI:FingerID、MS2LDA和SIRIUS 4等工具。这些工具利用质谱和专门的分子数据库将碎片离子与分子亚结构相匹配。CSI:FingerID采用ML算法预测未知化合物中是否存在分子指纹,而SIRIUS 4则在CSI:FingerID的基础上进行NP鉴定。MS2LDA应用文本挖掘中使用的一种无监督方法--潜在Dirichlet分配(LDA),将串联质谱数据分解为共同出现的片段或中性损失集(Mass2Motifs),并将它们与生化特征匹配,以推断分子结构。

虽然仅靠串联质谱数据可能不足以完成结构鉴定,但计算机辅助结构鉴定(CASE)专家系统已被开发出来,以支持未知化合物的鉴定。这些系统将未知化合物的光谱特性与潜在候选化合物列表相匹配。最近,开发了一种名为SMART 2.0的机器学习驱动工具,用于从NMR光谱快速表征NPs。SMART 2.0利用在大量二维核磁共振波谱上训练的卷积神经网络来生成准确的预测,从而发现和表征新型NPs

结合CASE专家系统,原子力显微镜、"结晶海绵 "X射线分析和微电子衍射等非光谱技术也被用于提供结构见解。这些工具和方法有助于从复杂混合物中高效表征和识别NPs。

2.2 将天然产物的分子表征

为了模拟和预测天然产物(NPs)和一般化学结构的性质和生物活性,分子表征被用来将它们转换成计算机可读的格式。早期的分子表征,如SMILES、SMARTS和InChI,是为了存储和检索分子信息以及识别共有的分子特征或亚结构而创建的。像DeepSMILES和SELFIES这样的新型表示法已经出现,可用于机器学习算法。

化学生物分子数据库在人工智能应用中发挥着核心作用,并常用于信息学相关学科。化学数据库利用预组装NP库和化学指纹识别改进了NP的去复制过程。商业数据库和开放式数据库都在使用,免费数据库越来越受欢迎。COCONUT和LOTUS是汇编非冗余NPs结构和相关信息的开放存取数据库。

分子指纹是为了在化学数据库中高效搜索子结构和减少存储空间而开发的。位串指纹,如MACCS密钥,被用来表示存在或不存在作为二进制向量的亚结构。拓扑指纹,如ECFP和MACCS键,被设计用于生物活性预测和相似性分析。这些指纹可进行分子相似性比较,并已用于结构相似性分析、化学空间的可视化表示以及NP相似性或代谢物相似性评分的生成。

基于几何距离的三维指纹图谱和ROCS等方法已被用于空间信息和形状相似性分析。三维指纹图谱主要用于基于配体的虚拟筛选和骨架跃迁。然而,更简单的拓扑指纹已显示出检索结构信息的前景,有可能使骨架跃迁变得过时。

近年来,人们开始关注比较不同的分子相似性方法和探索NP化学空间。在生物活性NP的分析中,采用逆合成方法的环状指纹优于传统指纹。虽然二维指纹比三维指纹的优势仍在评估中,但其有效性取决于具体应用和使用的指纹类型。

此外,三维指纹已被应用于定量结构-活性/性质关系(QSA/PR)模型,以预测和排列化学结构的生物活性。

2.3 用分子描述符矢量化天然产物

除了指纹,计算化学家还使用分子表征来计算分子描述符。这些描述符是成千上万个捕捉特定分子特性的特征,如原子特性、大小、形状、柔性、极性、亲油性等。分子描述符对于预测建模至关重要,已被用于描述天然产物(NPs)和合成化合物在化学空间中的分布。

由Lipinski及其同事开发的五则(Ro5)指南以关键分子描述指标为基础,用于鉴定口服小分子药物。分子描述符也被用于比较和描述NPs、合成化合物、组合库和上市药物所占据的化学空间。然而,天然产物和大环化合物可能违反Ro5规则,但仍然表现出口服生物利用度,这导致了专门针对NPs的经验规则的建立,即 "超越Ro5"(bRo5)。

分子描述符对化学信息学应用产生了重大影响。它们超越了三维表征,包括构象灵活性、质子化状态和取向等特征。一旦去除无关特征并对描述符进行缩放,它们就可用于相似性搜索或定量结构-活性/性质关系(QSA/PR)建模。为相似性搜索选择最佳描述符和距离度量取决于使用富集因子量化它们的性能。在QSA/PR建模中,确定最佳描述符取决于所选算法的稳定性、性能和可解释性,以及准确度和均方根误差等评价指标。

近年来,深度学习(DL)算法在药物发现和分子信息学领域越来越受欢迎。DL模型可以处理大型数据集,捕捉输入特征和输出决策之间的复杂关系。然而,DL模型通常依赖于一组选定的特征(分子表征),而不是从原始化学信息中学习。通常用于图像分类的卷积神经网络(CNN)并不适合读取化学实体的二维图形描述或三维结构。图卷积网络(GCN)已成为从分子图中读取不规则和原始信息的最先进技术。GCNs已被应用于药物发现流水线的各个领域,包括QSA/PR建模、药物-靶点/药物-药物相互作用预测、合成规划和全新分子设计。虽然GCNs已被用于一般化学数据集,但其在NP数据库(如COCONUT或LOTUS)中的明确应用还有待探索。

总之,分子描述符和深度学习算法,特别是GCN,已经成为计算化学中预测分子性质、理解结构-活性关系和设计新化合物的宝贵工具

2.4 绘制化学空间中映射天然产物

化学空间是指包含所有可能的化合物及其结构和功能特性的几何空间。以人类可读的形式将这一高维空间可视化对于药物发现的决策和进步至关重要。为此,我们采用了降维技术,将高维数据转化为更小的维数集。这些技术有助于探索化学空间,揭示结构-活性/性质关系(SA/PRs),并定义预测模型的适用范围。

三种常用的降维技术可用于绘制化学空间图、定义其局限性以及展示SA/PRs:

  1. 主成分分析(PCA):PCA通过寻找一组新的不相关变量(主成分)来分析和表示数据集的方差,从而捕捉最重要的信息。

  2. t-分布随机邻域嵌入(t-SNE):t-SNE将高维数据映射到低维空间,同时保留数据的局部结构。它对于可视化数据中的聚类和模式特别有效。

  3. 自组织图(SOM):SOM是一种将数据点组织到低维网格中的人工神经网络。它有助于可视化基于化合物性质的关系和组织。

不同的研究小组已经将这些技术应用于分析、导航和比较化学空间。例如,PCA已被用于比较药物、NP和组合库的性质分布。ChemGPS-NP和ChemMaps是类似于PCA的表示方法,用于探索NP骨架、药性和生物活性之间的关系。ScaffoldHunter和SCONP使用树状图来组织NP化学空间中的骨架库。

其他技术包括将化学空间嵌入二维树的TMAPs,它们已被应用于分析细菌或真菌来源的NP之间的相似性。可靠性密度邻域鲁棒PCA被用于定义可靠的预测空间和评估QSA/PR模型的预测可靠性。最后,结合t-SNE的无监督离群点检测方法被用于划分预测模型的局限性和发现新化合物

这些降维技术使研究人员能够深入了解化学空间内的组织和关系,理解SA/PR,并评估预测模型的可靠性。

2.5 化合物库的工程相似性评分

计算研究通过量化化合物与感兴趣的化学空间的相似性,为设计重点化合物库做出了贡献。这些测量方法被称为相似度得分,有助于识别与天然产物(NPs)或其他特定类别具有相似特征的化合物。相似度得分的例子包括NP相似度得分、代谢物相似度得分、先导物相似度得分和药物相似度得分。这些分数是根据各种理化性质和分子指纹生成的。相似度得分有助于缩小大型化合物库的范围并优化NP启发药物的设计。此外,还引入了分子复杂性指数(MA)作为内在分子复杂性的衡量标准,从而可以在质谱分析中跟踪复杂分子及其碎片。分子复杂性指数不仅对陆地生态系统有影响,而且对寻找地球以外的生命也有意义。

参考资料:https://naples.naturalproducts.net/

Saldívar-González FI, Aldas-Bulos VD, Medina-Franco JL, Plisson F. Natural product drug discovery in the artificial intelligence era. Chem Sci. 2021 Dec 13;13(6):1526-1546. doi: 10.1039/d1sc04471k. PMID: 35282622; PMCID: PMC8827052.

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


人工智能时代的天然药物发现【01】的评论 (共 条)

分享到微博请遵守国家法律