肿瘤药物发现: 人工智能与基于结构的计算研究【01】
近年来,科学界越来越多地使用人工智能(AI)和机器学习(ML)等计算方法,以及对接和分子动力学(MD)等基于结构的方法,来加速发现潜在靶点,并优先选择治疗各种疾病(包括肿瘤药物发现)的小分子药物。由于计算能力和实验结构阐明方面的进步,这些方法的整合已成为可能。这些努力促成了个性化抗癌疗法的开发,反映了肿瘤疾病的复杂性和多样性。计算药物发现领域正逐步转向癌症特异性应用,并证明了针对癌症相关靶点的疗法的有效性。

癌症特征最初由 Hanahan 和 Weinberg 定义为六个特征,现在又增加了两个新兴特征和两个有利特征。这些特征代表了肿瘤发生过程中共同的基本特征。了解这种复杂性对于开发个性化抗癌疗法至关重要。人工智能(AI)与基于结构的方法相结合,为癌症药物发现提供了一种更全面的方法,可解决癌症的所有特征(方框图中编号为 1 至 10)。此外,第十一个特征,即癌细胞逃避化疗作用的能力。
本综述的重点是将人工智能(AI)/机器学习(ML)和基于结构(SB)的方法整合到专门应用于癌症研究的计算药物发现策略中。所评论的文章涵盖了肿瘤学药物发现管道的不同阶段,讨论了六个用例场景和四种整合方法。用例包括模拟诱变、(非)靶标预测、结合位点预测、虚拟筛选(VS)和异位调节分析。整合方法包括 (A) 使用结构数据作为 ML 模型的输入,(B) 基于 ML 的 SB 应用评分功能,(C) 用于分析分子动力学(MD)模拟的 ML,以及 (D) 将 SB 和 ML 方法互补结合的顺序或并行管道。这些策略对生物学的影响体现在它们与十种已定义的癌症特征的相关性,以及额外的第十一个特征:逃避化疗的能力。这些方法和用例的异质性凸显了在肿瘤药物发现中结合人工智能和 SB 的多种潜力。

图 2展示了基于结构(SB)和机器学习(ML)的集成方法在肿瘤药物发现中的六种应用场景:1)驱动因素预测;2)模拟诱变;3)(非)靶点预测;4)结合位点预测;5)虚拟筛选;6)异构调节分析。
计算癌症研究中的驱动因素预测
在计算癌症研究中,机器学习(ML)经常被用于预测应优先作为抗癌疗法靶点的基因和突变驱动因素。这些方法,通常是泛癌症的,而不是针对特定靶点或癌症类型的。它们依赖于从癌症患者身上获得的多组学数据集,如体细胞突变、拷贝数变异、表观遗传学或从癌症基因组图谱(TCGA)等数据库中获得的 RNAseq 数据。
1.1 结合基于结构的方法和多变量方法
Bailey 等人对驱动因素预测工具进行了广泛的概述,并强调了结合不同工具以最大限度地提高预测性能的重要性。他们的方法将基于结构的方法(SB)和 ML 方法并行整合在一起。其他研究,如 Knijnenburg 等人和 Liñares-Blanco 等人的研究,使用在 omics 数据上训练的分类模型(分别为逻辑回归和随机森林)来预测癌症相关结果。他们利用特征重要性对基因进行优先排序,以便进一步进行 SB 分析。Knijnenburg 等人进行了模拟诱变研究,并利用分子动力学(MD)模拟分析检测到的可能影响蛋白质稳定性的变异。另一方面,Liñares-Blanco 等人将 ML 衍生信息用于药物再利用虚拟筛选(VS),将 FDA 批准的抗癌药物与优先蛋白质的晶体进行结构对接。
1.2 异质性和挑战
用于癌症驱动因素预测的输入数据、特征和结果变量并不统一。肿瘤微环境或转移等重要方面往往被忽视。虽然TCGA数据因其高质量和标准化而被广泛使用,但其在2016年的冻结凸显了更新癌症患者数据库(如基因组数据公共平台)的必要性。
用于个性化抗癌疗法的模拟诱变
通过预测特定点突变对蛋白质功能和可药性的影响,模拟诱变在开发个性化抗癌疗法和临床决策中发挥着至关重要的作用。体外诱变研究既昂贵又耗时,因此计算研究对于优先选择突变体进行实验分析非常有价值。
2.1 使用结构数据和 ML 分类器
大多数经审查的模拟诱变方法都使用结构数据来训练 ML 分类器。这些数据直接来自晶体结构,或从分子动力学(MD)模拟中获得。从野生型和突变型结构中提取各种特征,并将其用于分类模型,以预测变异的临床意义、蛋白质稳定性、蛋白质相互作用稳定性和配体结合动力学。
2.2 性能及与 SB 方法的比较
分类模型在诱变预测中的性能因用于训练和验证的实验诱变数据的可用性而异。一些研究比较了 ML 模型与基于结构(SB)方法在这些任务中的表现。在预测抑制剂亲和力变化和确定激酶变体的激活状态方面,ML 已显示出良好的前景,与 SB 方法相比,其计算时间更短。
2.3 局限与机遇
模拟诱变方法的适用性通常仅限于数据充足的特定靶标或突变体。为了提高计算突变方法的影响力,可以使用具有高度保守的结合口袋和激活机制的蛋白质家族其他成员的数据来丰富数据集。应遵循 FAIR 原则,建立具有实验验证的诱变数据的公共数据库,以加强相关训练和验证数据集的开发。
总之,模拟诱变在推进个性化抗癌疗法方面具有巨大潜力,但还需要进一步的实验验证和数据共享,以提高其准确性和适用性。
肿瘤药物发现中的(非)靶点预测
预测药物的(非)靶点空间对于获得选择性特征和设计具有多靶点特征的多药理学候选药物至关重要。机器学习(ML)和基于结构(SB)的综合方法已在预测(非)靶点空间、帮助合理药物设计和再利用方面显示出前景。
3.1 利用已知信息进行靶点预测
预测目标空间的工作通常从已知配体-蛋白质或蛋白质-蛋白质相互作用开始。已有研究利用综合 SB-ML 管道来确定天然化合物白藜芦醇的潜在靶点。通过对接研究和三维定量活性-结构关系(QSAR)模型,发现 MDM2 和 QR2 是白藜芦醇衍生物的潜在靶点。
3.2 合理的多药理学方法
计算方法可用于提出新药发现或药物再利用的多药理方法。已有一种综合方法以一种已获批准药物的晶体结构为模板,确定编码具有适当配体结合空间的蛋白质的基因。Docking 和 ML 算法预测了全基因组配体与蛋白质的相互作用,提出 RIOK1 是 PDE3 抑制剂的非靶点,可用于潜在的抗癌药物再利用。另一项研究利用顺序 SB-ML 管道识别了与 DHODH 相关的新靶点,并筛选出抑制小细胞肺癌多个靶点的候选药物。网络药理学分析确定了相关蛋白质,对接数据则确定了多靶点化合物的优先顺序,以便进行 MD 验证。
3.3 影响和数据依赖性
综合(非)靶点预测方法对肿瘤药物发现中的先导物优先排序具有直接影响。这些方法的适用性在很大程度上依赖于相关数据的可用性,如真正的结合模式或丰富的相互作用组数据库以及已确定的靶点的生物活性数据。总之,在(非)靶点预测中整合 ML 和 SB 方法有望推动肿瘤药物的发现,提高药物的选择性和疗效。参考资料:
González M G, Janssen A P A, IJzerman A P, et al. Oncological drug discovery: AI meets structure-based computational research[J]. Drug discovery today, 2022, 27(6): 1661-1670.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn