欢迎光临散文网 会员登陆 & 注册

TB-IECS:一种基于机器学习的可用于虚拟筛选的准确评分函数

2023-08-01 10:48 作者:AIDDPro  | 我要投稿

近日,一篇关于机器学习的评分函数的文章《TB-IECS: an accurate machine learning-based scoring function for virtual screening》于2023年7月发表在J Cheminform杂志。作者提出了一种名为TB-IECS评分函数,该函数结合了来自Smina和NNScore2的能量项,并使用XGBoost构建模型。TB-IECS 的虚拟筛选能力在DUD-E和LIT-PCBA数据集以及 ChemDiv 数据库中的七个靶标数据集上进行了评估。结果表明,TB-IECS表现优于Glide SP和Dock等传统评分函数,同时也有效地平衡了效率和准确性

研究意义

基于结构的虚拟筛选(SBVS)是药物发现中常用的方法,其中分子对接是核心技术之一分子对接可以预测蛋白质-配体复合物的结合模式,并使用评分函数估算结合亲和力。然而,传统评分函数的准确性可能不足,因此开发了基于从蛋白质-配体复合物中生成的广泛描述符的机器学习评分函数(MLSF)。在这项研究中,作者提出了一种新的评分函数,称为基于理论的相互作用能量组合评分(TB-IECS),它采用经典的XGBoost算法基于Smina和NNScore2获得的能量项开发。探索了TB-IECS用于虚拟筛选的能力,以及不同特征组合、机器学习算法和特征向量长度对模型性能的影响

数据集

如表1所示,本研究使用的基准数据集包括DUD-E的多样化子集(数据集I)和 LIT-PCBA 的一个子集(数据集II)。DUD-E 包含22,886个分子,102个靶点。LIT-PCBA数据集包含15个靶点,共有7844个活性化合物和407,381个非活性化合物。此外,作者还随机从ChemDiv数据库提取化合物用于扩展LIT-PCBA中7个靶点的伪配体集来构建数据集III。表1 DUD-E和LIT-PCBA的不同子集的信息

评分函数及能量项

本研究使用了15种传统评分函数对从对接中获得的对接构象重新评分,并从输出的评分文件中提取描述符。根据物理原理,这15种评分函数的能量项可以大致分为以下几类:

工作流程

本研究的完整工作流程如图1所示。首先,收集了三个数据集,并通过对接预测蛋白质-配体复合物结构。选择数据集I和数据集II中每个配体的排名前1的结合复合物生成描述符,并由15个经典评分函数重新评分。然后,将15个评分函数的分解能量项作为描述符用于构建MLSFS。第一种策略将不同公式中不同相互作用类型的特征合并,产生了288种组合(表2)。另一种方法则采用基于树的特征选择生成的重要性评分,共有36种特征组合(表2)。因此,共获得了324个特征组合进行进一步分析。接下来,利用SVM算法基于数据集I的324个特征组进行训练和测试。根据324个模型的性能,选择了5种最佳特征组合,以进一步研究特征向量长度、物理化学能量组合和机器学习算法对模型性能的影响。最后,作者提出了一种新的基于Smina、NNScore2和XGBoost算法获得的能量项构建的TB-IECS,并进一步评估了其在数据集I、数据集II和数据集III上的筛选能力

图1 工作流程
表2 能量组合

实验结果

5.1 在不同特征上训练的模型的性能

本研究通过对接预测蛋白质-配体复合物结构,利用15个经典评分函数的分解能量项作为描述符,构建了324个特征组合,其中包括基于公式基于树的求和、平均方法。最终使用SVM算法训练和测试这些不同的特征组合,并选择出5种最佳的组合(图2)。研究结果表明,基于公式的方法通常比基于树的方法表现更好

图2 模型性能评估

5.2 模型预测分析

作者选择了基于公式、基于树的求和和基于树的平均方法来组合15个经典评分函数的分解能量项,构建了不同的特征组合,并使用SVM算法对这些特征进行训练和测试(表3)。从每组中选择出最佳特征组合,并根据基于树的方法对特征重要性的预测,选择了具有最高重要性得分的能量项进行组合,产生了2个其他特征组合。如图3所示,使用所有特征进行训练和测试的模型在大多数测试目标上表现最佳,但基于理论的特征组合模型也显示出令人满意的准确性。与使用单个评分函数的能量项相比,基于理论的特征组合通常会提高模型性能。此外,特征向量长度也可能影响模型性能。

表3 特征组合
图3 基于理论特征和单一SF训练在数据集上的模型I的性能

5.3 不同相互作用特征和特征向量长度对模型性能的影响

为了研究不同相互作用类型对模型性能的影响,作者创建了一系列特征组合。如图4所示,在任何一种相互作用类型缺失时,F1得分没有显著降低,F1得分的分布也保持不变。这表明,基于理论的特征组合中包含了足够多的描述符,使它们不会对单个相互作用类型的缺失敏感不同相互作用类型对模型性能的影响较小,而基于理论的特征组合可以提高模型的鲁棒性

在测试的所有目标中,随着特征数量的增加,F1得分也在增加。当特征数量增加到约200时,F1得分达到了最终稳定状态,进一步增加特征数量并没有提高准确性。此外,NNScore与互补描述符的使用有益于提高模型性能。

图4 相互作用能项对模型性能的影响。A:具有不同特征的模型的性能热图。B:不同特征的模型性能分布图

5.4 不同机器学习算法对模型性能的影响

根据图5的结果显示,SVM模型在平均F1得分方面表现最佳,而RF模型表现最差。考虑到XGBoost模型与SVM模型表现相当,并且计算速度比SVM模型更快,因此作者选择XGBoost算法进行进一步的建模。

图5 不同机器学习模型的性能评估

5.5 在最优的描述符和机器学习算法上训练模型

基于上述结果,作者选择了长特征向量XGBoost算法,并尝试构建一个准确的机器学习评分函数。将单个能量项分解为蛋白质残基和配体原子的贡献分数(IFP)可以显著提高模型性能。最终,作者选择Chemplp ifp作为新的基于理论的特征组合。NNScoreSmina的能量成分也被用于新的基于理论的特征。

5.6 模型在数据集上的表现

作者首先在DUD-E数据集上进行了测试(如表4所示)。总体而言,基于新的理论特征组合训练的模型优于传统的评分函数。在大多数情况下,Smina_nn模型表现最佳。因此,作者选择Smina_nn模型作为最终的评分函数,命名为TB-IEC

表4 模型在DUD-E数据集上的表现

随后,作者在LIT-PCBA数据集上对模型进行了验证,在LIT-PCBA数据集上,TB-IECS的AUC值有所下降,但仍然显著高于Glide SP。此外,与Glide SP相比,TB-IECS表现出更好的识别能力(表5)。为了进一步探索TB-IECS的筛选能力,专门针对七个不同的靶标训练了七个TB-IECS模型,并用于对ChemDiv数据库(数据集III)进行筛选。如图6所示,TB-IECS在数据集III上的表现类似于在LIT-PCBA上的表现。至于EF(1%),TB-IECS和Glide SP在数据集III上的表现均优于在LIT-PCBA上的表现,但TB-IECS比Glide SP更有效。总之,TB-IECS在虚拟筛选方面展现出潜在的能力,并在不同的评估中优于Glide SP

表5 模型在LIT-PCBA数据集上的表现
图6 模型在数据集III上的表现

结论

本研究提出了一种基于理论的特征组合的机器学习评分函数(TB-IECS),该函数利用多个传统评分函数中描述蛋白质-小分子复合物重要非键合相互作用的能量成分,重新组合形成特征向量。TB-IECS利用强大的筛选能力进行构建,能够有效地评估蛋白质-小分子复合物的亲和力。研究发现,选择适当的特征组合可以提高模型性能,而特征向量长度对模型效率有很大影响。TB-IECS在DUD-E数据集、LIT-PCBA数据集和实际情景的虚拟筛选中表现出更好的性能,并显著提高了传统评分函数中早期识别率较低的问题。TB-IECS在MLSF中表现出优越性,有望成为一种准确的虚拟筛选方法

参考文献

Zhang, X., Shen, C., Jiang, D., Zhang, J., Ye, Q., Xu, L., Hou, T., Pan, P., & Kang, Y. (2023). TB-IECS: an accurate machine learning-based scoring function for virtual screening. Journal of cheminformatics, 15(1), 63. https://doi.org/10.1186/s13321-023-00731-x

代码

https://github.com/schrojunzhang/TB-IEC-Score

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


TB-IECS:一种基于机器学习的可用于虚拟筛选的准确评分函数的评论 (共 条)

分享到微博请遵守国家法律