欢迎光临散文网 会员登陆 & 注册

JCIM | 稀疏蛋白激酶活性数据的大规模建模

2023-07-06 11:01 作者:AIDDPro  | 我要投稿

近日,一篇关于激酶活性数据建模的论文:《Large-Scale Modeling of Sparse Protein Kinase Activity Data》于2023年6月发表在JCIM杂志。作者构建了一个激酶的基准集,用于基准测试和建立激酶活性预测模型

研究意义

蛋白激酶是一类超过500种负责蛋白质磷酸化的酶家族。大多数信号通路都包含激酶,在蛋白质调节的各个方面起到关键作用。计算机辅助药物设计(CADD)可以通过减少合成化合物的数量和所需实验的数量来降低药物研发成本,特别是在早期药物发现阶段。

在药物设计中,目标是建立具有泛化能力的模型,即尽可能地能够很好地预测新化合物的性质。因此,模型性能应该使用“真实”的划分方法进行评估(即尽可能地对应实际情况)。

本文介绍了一种“随机全局平衡选择”(RGES),它可以解决多任务建模中数据泄漏、数据平衡问题;同时,最近由Tricarico等人提出的一种基于“相异性驱动的全局平衡聚类”(DGBC)切分可以解决数据泄漏、数据平衡和分子差异性问题。它同时最大化差异性并在全局范围内平衡各个集合。

主要贡献

本文介绍了两个经过筛选和整理的大型激酶活性数据集,它们来自公共数据库:

  1. Kinase200包含197个激酶,每个激酶至少200个活性数据点。

  2. Kinase1000包含74个激酶,每个激酶至少1000个活性数据点。

所选的激酶在人类蛋白质激酶树上用图1突出显示。作者使用出了两种平衡的80-10-10多任务划分方法用于活性预测模型:基于随机拆分的方法。

图1 人类蛋白质激酶树,其中突出显示了所选的激酶。Kinase1000中的激酶为蓝色,而Kinase200中的额外激酶为橙色。节点的大小表示每个所选激酶的化合物数。

数据集创建

作者从Papyrus数据集中检索了所有被标记为“高”质量的蛋白激酶活性数据点,并过滤掉了分子量大于1000 Da的化合物,以及多次测量的标准差大于1.0对数单位的数据。此外,删除了所有的变构数据,以及删除所有与变构分子的Tanimoto相似性大于0.8的化合物。Kinase200和Kinase1000数据如表一所示。

表1 两个数据集信息

数据划分

使用RGES拆分DGBC拆分方法,将数据集划分为训练集测试集验证集,其中80%的数据用于训练集,10%用于测试集,10%用于验证集。然后使用三种不同的方式进行评估:

  1. 数据平衡 - 每个子集和目标的数据百分比

  2. 数据分布 - 每个子集中pChEMBL值的分布

  3. 化学差异性 - 每个子集中化合物与其他子集中所有化合物相比的最小Tanimoto距离的分布

实验结果

5.1 数据拆分

如图2A所示,无论是使用RGES还是DGBC拆分方法,每个目标分子的比例均值都接近80%/10%/10%,标准差很小。RGES拆分方法的分子比例略微更加平衡。在图2B中,每个子集的pActivity值分布非常相似,表明活性值在所有子集之间也很好分布。对于两种拆分方法,化学相似性的分布在图2C中展示, DGBC拆分方法比RGES拆分方法产生更多的化学差异性子集。这使得DGBC更具挑战性,因此更适合测试模型的普适性。

图2 RGES和DGBC方法拆分后的数据集特征

5.2 模型测试结果

表2和图3展示了使用随机森林模型(RFST)、XGBoost(XGBST)和单任务chemprop(CPST)模型;未使用数据填补的多任务pyboost(PBMT)和chemprop模型,以及使用平均值填补()、使用随机森林预测插补()chemprop模型和pQSAR在使用RGES和DGBC拆分的kinase200数据集上的评估结果。

图3 不同模型的性能比较


表2 不同模型的性能比较

图3 对接分数与分子量之间的相关性。红色点表示训练集中的化合物,而蓝色(对接分数)、橙色(氢键)和绿色(排斥)表示由REINVENT生成的化合物。数据拆分的重要性 大多数模型在RGES拆分上表现更好,但在DGBC拆分上表现较差。这些结果强调了对模型性能进行实际拆分评估的重要性。多任务模型优于单任务模型 对于两种拆分方式,多任务模型优于单任务模型,平均R2值增加,RMSE减少(见表3)。这表明在预测与训练集中不相似的化合物的活性时,利用多目标相关性可能是有用的。此外,对于深度学习模型而言,运行单个多任务模型要比运行198个单任务模型时间损耗降低约30倍。

表3 多任务和单任务模型的性能比较

基于树的机器学习优于深度学习 对于单任务模型(RFST、XGBST vs CPST)和多任务模型(PBST vs CPMT)而言,传统的基于树的机器学习方法优于深度学习模型。尽管通常情况下,深度学习模型已被证明在活性预测方面优于传统的机器学习方法,但是在某些情况下,经典机器学习方法的表现与深度学习模型相当。性能与数据密度无关 如图4左图所示, CPMT模型的性能与该激酶的数据密度点之间的相关性差。作者在不同数据量的kinase1000和kinase200两个数据集上运行了CPMT模型,如图4右图,添加更多具有较少数据点的目标会导致数据矩阵更加稀疏,而这并不会提高模型的性能。

图4 CPMT模型的性能与激酶的数据密度之间的关系(左)。CPMT在较小和较大数据集之间的性能差异(右)

结论

本研究使用不同的机器学习方法对蛋白激酶活性进行了大规模建模。作者从Papyrus数据库中构建了两个大型蛋白激酶数据集,kinase200数据集和kinase1000数据集。为了评估模型的性能,作者使用了两种数据划分方法,比较了七个模型在两个数据集上的性能。结果表明,传统的机器学习方法优于深度学习方法相比于单任务,多任务模型通过任务之间的相关性可以提高模型性能。DGBC划分更真实地评估了机器学习模型在实际药物发现项目中的性能,所有模型的性能都比随机划分差,表明需要进一步发展有效的建模方法。总的来说,本研究的结果表明在大规模稀疏数据集中建模需要更多的探索和改进。

参考文献Luukkonen, Sohvi et al. “Large-Scale Modeling of Sparse Protein Kinase Activity Data.” Journal of chemical information and modeling, 10.1021/acs.jcim.3c00132. 9 Jun. 2023, doi:10.1021/acs.jcim.3c00132代码https://github.com/CDDLeiden/kinase-modelling

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


JCIM | 稀疏蛋白激酶活性数据的大规模建模的评论 (共 条)

分享到微博请遵守国家法律