肿瘤药物发现: 人工智能与基于结构的计算研究【02】
01 预测肿瘤药物结合位点的挑战与进展
预测结合位点是肿瘤药物发现的关键步骤,但突变的结合位点和转化的蛋白质-蛋白质相互作用会使预测变得复杂。目前有多种工具可用于预测小分子结合位点,这些工具通常集成了基于结构的(SB)和机器学习(ML)技术。不过,在使用训练数据集相对较小的 ML 分析预测复杂特征时应谨慎。异构结合位点具有在癌细胞中选择性靶向的潜力,在抗癌药物开发中尤其受到关注。虽然小分子的结合位点预测已经非常成熟,但预测蛋白质-蛋白质相互作用中的结合区域仍然具有挑战性。基于贝叶斯主动学习的蛋白质-蛋白质对接和基于 ML 的蛋白质-肽结合残基预测等综合 SB-ML 方法已在这一领域显示出前景。这些方法的可行性取决于结构数据的可用性,在缺乏实验结构的情况下,可以利用同源模型。

a) AlphaFold 在 CASP14 数据集(由 87 个蛋白质结构域组成)上的表现是相对于竞赛 146 个参赛项目中的前 15 个项目而言的。数据以中位数和中位数 95% 置信区间的形式呈现,由 10,000 个引导样本估算得出。b) 将 AlphaFold 对 CASP14 目标 T1049(PDB 6Y4F)的预测结果与真实实验结构(绿色)进行比较。除了 C 末端的四个残基是 B 因子异常值而未画出外,预测结果与实验结构非常吻合。c) 对于 CASP14 目标 T1056(PDB 6YJ1),AlphaFold 虽然没有明确预测锌离子,但准确预测了锌结合位点和精确的侧链。d) CASP 目标 T1044(PDB 6VR4)是一个大型单链蛋白质,有 2,180 个残基。AlphaFold 在没有任何干预的情况下成功预测了正确的结构域堆积,展示了其处理高难度蛋白质结构的能力。e) AlphaFold 的模型结构图显示了论文中描述的各个组件之间的信息流。括号中表示的是阵列形状,包括序列数(Nseq)、残基数(Nres)和通道数(c)。
与其他条目相比,AlphaFold 在 CASP14 数据集上的表现更好,它能准确预测复杂的蛋白质结构和结合位点,是蛋白质结构预测的有力工具。
最近发布的高精度蛋白质结构预测工具 AlphaFold 为在全基因组范围内实施结合位点预测方法提供了新的可能性。AlphaFold 的开放源代码也促进了相关工具的开发,如 AlphaFill,它可以用配体和辅助因子丰富 AlphaFold 模型。这些进步对肿瘤药物的发现具有重大意义,因为它们可以在不进行实验测定的情况下预测突变体的结合位点。在这一探索性领域,采用多种工具的共识方法可能有助于减少假阳性,提高预测的可靠性。
02 计算药物发现中的虚拟筛选:整合基于结构的方法和机器学习方法
虚拟筛选(VS)是一种广泛使用的计算药物发现方法,可优先选择化合物进行实验分析。虚拟筛选结合了基于结构(SB)和机器学习(ML)的方法,以充分利用可用数据并提高准确性。基于 ML 的评分函数可与对接软件集成,或用于对对接结果重新评分。这些评分函数可以是针对特定靶点的,也可以是通用的。较简单的方法包括将对接得分作为 ML 分类器的特征,而更复杂的方法则包括分子动力学(MD)衍生特征和其他描述符。
另一种方法是将配体-蛋白质相互作用数据作为 ML 模型的输入,从而得出药理空间的描述符。通常,SB 和 ML 方法会先后或并行使用。基于配体的 QSAR 模型是根据实验生物活性数据开发的,用于根据预测的结合亲和力对化学数据库中的化合物进行优先排序。然后根据各种标准筛选出命中化合物,并使用对接和 MD 模拟等 SB 方法对化合物进行合理化并提出进一步验证的建议。
虽然 VS 策略通常用于筛选小分子,但也可用于肽。VS 面临的主要挑战之一是为 ML 模型提供相关的、足够大的训练和验证数据集。针对特定靶点的应用在避免偏差和过拟合方面面临更多挑战。而这些需要共同努力扩大数据集,特别是癌症相关突变体的数据集,以提高 VS 方法在个性化药物优先排序中的准确性和适用性。
03 选择性抗癌药物开发中的异构调节分析
异构调节是药物发现的有力工具,它具有更高的选择性和克服耐药性突变的能力,因此在癌症研究中大有可为。别构结合位点和调制剂表现出与正构位点不同的特征,因此需要开发专门的别构特异性工具。
Lu 等人的研究全面综述了用于发现异构调节剂的基于结构(SB)的方法,整合了 SB 和机器学习(ML)技术,用于异构结合位点预测、相互作用评分和突变效应分析。这些工具已被应用于肿瘤药物的发现,优先选择 SIRT6 和 STAT3 等癌症靶点的异构激活剂和抑制剂。通过实验测定或晶体学研究对计算预测进行了验证。此外,驱动力预测工具 AlloDriver 将临床癌症样本中的突变映射到其三维结构中,识别潜在的异构作用位点和驱动力突变。

图 1 以细胞周期蛋白依赖性激酶 2(CDK2)为例,说明了单个蛋白质上多个结合位点的概念。绿色区域代表与 ATP 结合的正交结合位点。红色显示的是异构结合位点(V 型抑制剂),它与正位结合位点紧密相连。图中显示了两种类型的抑制剂:绿色为非异位抑制剂,红色为异位抑制剂。此外,该图还显示了细胞周期蛋白-A(浅灰色)与 CDK2 和天然抑制剂 CDKN1B(深绿色)配对的情况,突出了异位抑制剂如何可能破坏 CDK2 和细胞周期蛋白-A 之间的蛋白质-蛋白质相互作用。
异构调节分析通常在动态环境中使用 ML 技术分析分子动力学(MD)轨迹,探索驱动观察到的效应的途径。研究已成功确定了与蛋白质活性上的异调效应相关的不同动态模式和构象微态,并通过实验进行了验证。
虽然异构调节已为人所知数十年,但由于已知异构调节剂的指数级增长,它在药物发现领域获得了极大关注。值得注意的是,美国食品及药物管理局批准的抗癌药物包括三种异构调节剂。然而,由于缺乏实验确定的异构相互作用和机制,计算工具,特别是基于 ML 的方法,仍然面临着挑战。未来的研究与实验验证相结合,有望在开发更具选择性和更有效的抗癌药物投放市场方面发挥关键作用。
04 结论
事实证明,ML-SB 集成方法在肿瘤药物发现的各个方面都很有价值。这些计算方法可应用于特定的癌症场景,也可应用于与肿瘤研究潜在相关的更普遍的场景。选择合适的方法取决于具体的研究目标和范围。虚拟筛选中基于 ML 的评分函数和异调分析中分子动力学模拟的 ML 分析是常用的集成方法。
虚拟筛选仍然是一种流行的策略,但在驱动力预测和计算诱变方面,综合方法的重要性日益增加,因为结构数据能有效补充 Omics 数据。不过,这些方法也存在局限性,包括数据可用性、计算要求和成本效益需求。未来的研究可能会探索更复杂的算法,如深度神经网络(DNN),以便从结构数据中提取更丰富的信息。缺乏实验验证仍然是计算药物发现中的一个常见缺陷,这也提出了在肿瘤药物研究中使用集成方法的问题。应对这些挑战对于加强计算方法在个性化肿瘤疗法中的应用至关重要。肿瘤研究的快速发展要求不断重新评估应用方法的生物学相关性。总之,综合计算方法为肿瘤药物发现中优先选择靶点和小分子提供了宝贵的手段。将这些方法与实验验证相结合对于加快个性化肿瘤疗法的开发至关重要。参考资料:González M G, Janssen A P A, IJzerman A P, et al. Oncological drug discovery: AI meets structure-based computational research[J]. Drug discovery today, 2022, 27(6): 1661-1670.https://www.nature.com/articles/s41586-021-03819-2/figures/1
https://doi.org/10.1371/journal.pcbi.1003559.g001
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn