JCIM | 生成模型至少应该能够设计出与靶标结合良好的分子:一个新的基准测试
近日,一篇关于评估分子生成模型的论文:《Generative Models Should at Least Be Able to Design Molecules That Dock Well: A New Benchmark》于2023年5月发表在JCIM杂志。作者提出了一个新的基准测试,目的是评估生成模型在设计与蛋白质结合的分子方面的能力。

研究意义
药物发现的核心挑战之一是设计具有所需化学特性的化合物。从头设计药物是一种成功的计算方法,它涉及生成新的潜在配体,如活性分子或者类药性分子。然而,目前的一个主要限制是缺乏挑战性的基准测试来评估生成的化合物的实际性能。为了解决这个问题,作者提出了一个基于对接的基准测试,旨在生成得分高的药物分子。作者的方法可以扩展到评估其他分子设计方法,并已被其他研究人员采用。这个基准测试是化学研究中的一个重要进展,有助于研究人员更好地评估分子设计方法的性能。
主要贡献
本文的第一个贡献是提出了一个更现实的基准测试,以评估从头设计药物的方法。如图1所示,该基准测试基于分子对接,可以更好地模拟真实药物发现的情景。作者还提供了相应的代码和工具,以便评估新模型和重现结果。该基准测试已经被其他研究人员采用,并证明了其在评估分子设计算法方面的有效性。
本文的第二个贡献是揭示了当前流行的从头设计药物方法在生成具有生物活性的分子方面的局限性,并且警示在药物发现流程中应谨慎应用这些方法。

基准测试
本文提出的分子对接的基准测试是由三个要素构成的:
使用对接软件计算生成分子与蛋白的结合模式
对结合模式进行评分
已计算对接打分的训练集化合物
基准测试的目标是生成250个分子,然后取最高的对接分数。
模型评估工作流程
使用代码库中提供的链接下载与所选药物靶点相关的活性数据。这些数据包含基于实验Ki的活性类别(活性或非活性)和对接得分。
使用提供的数据训练一个生成模型,优化对接得分(或其他优化目标)并生成250个非重复分子。
使用Lipinski规则过滤生成的化合物,并确保每个分子的分子量大于100。
对过滤后的化合物进行对接,并计算其多样性和优化目标的平均值。
对基准测试中的所有靶标和所有优化目标进行重复测试。
实验结果
作者选择了8个靶标,并在ChEMBL数据库获取标有Ki的抑制剂,以100 nM和1000nM分为活性和非活性类别作为模型训练数据(表1)。使用SMINA作为对接软件。在ZINC数据库抽取9,204,719个分子作为基线对比。选取目前流行的三种生成模型进行测试:CVAE、GVAE、REINVENT。

评估发现,应用于从头设计药物的生成模型可能需要更多数据才能生成良好的结合化合物。在关键的对接得分函数任务中,模型通常无法超过ZINC数据库中排名前10%的分子。这意味着,在使用生成模型进行分子设计时,我们需要更多的数据和更强大的算法来生成具有更高结合亲和力的化合物。REINVENT在“排斥”(化合物与蛋白质之间的排斥作用)任务上的表现明显不如GVAE和CVAE。所有模型都无法超过在ZINC数据集中找到的排名前10%的分子。相比训练集,REINVENT生成的分子多样性更低。在氢键任务上,GVAE和REINVENT都生成的分子几乎与在ZINC数据库排名前1%和训练集中的分子相匹配。图2和图3显示,对接得分与可旋转键数或分子量之间存在一定的强相关性。随着可旋转键数或分子量的增加,对接得分会提高。对于可旋转键数,生成的化合物与训练数据的边缘分布混合得很好。另一方面,对于分子量与对接得分的关系,生成化合物的分布向更好的对接得分和较小的分子量方向移动。


从化学的角度来看,REINVENT 产生了最一致的分子,具有最高的所需生物活性可能性。当考虑不同的优化方法时,在对接分数优化过程中产生了最好的结果。CVAE和GVAE生成的化合物类药性较差,但它们仍然可以用于对接基准任务。
结论
这篇文章探讨了使用生成模型进行全新药物设计所面临的问题。作者提出了一个新的基准测试,使用对接得分作为优化目标,以更真实的方式评估全新生成模型。结果表明,应用于全新药物发现流程的生成模型可能需要比通常用于训练的数据更多,才能生成更真实的化合物。尽管优化对接得分已经是一个具有挑战性的任务,但作者认为生成优化对接得分的化合物是一个可实现的任务。作者希望这个新的基准测试能更好地反映真实发现问题的复杂性,并成为开发更好的全新药物模型的起点。
参考文献Ciepliński, Tobiasz et al. “Generative Models Should at Least Be Able to Design Molecules That Dock Well: A New Benchmark.” Journal of chemical information and modeling, 10.1021/acs.jcim.2c01355. 24 May. 2023, doi:10.1021/acs.jcim.2c01355代码
https://github.com/cieplinski-tobiasz/smina-docking-benchmark.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn