欢迎光临散文网 会员登陆 & 注册

JC | 使用机器学习和深度学习方法对活性悬崖进行大规模的预测

2023-03-14 15:38 作者:AIDDPro  | 我要投稿

今天介绍的是近期发表在Journal of Cheminformatics的一篇论文:《Large-scale prediction of activity cliffs using machine and deep learning methods of increasing complexity》。这篇文章介绍了使用机器学习和深度学习方法来预测分子间的“活性悬崖”现象活性悬崖是指在化合物结构中微小的改变会导致它们的生物活性显著变化的现象。这种现象对于新药物开发至关重要,它可以帮助研究人员设计更加有效的化合物。

研究背景

活性悬崖(Activity cliffs,ACs) 指在化合物结构中微小的改变会导致它们的生物活性显著变化的现象,在定量结构活性关系 (QSAR) 预测中会带来严重的问题。ACs 在药物发现中非常重要,因为它们能捕捉对于特定生物活性有巨大影响的微小化学改变。ACs 的定义和评估需要考虑多种分子相似性效力差异的标准。

与预测单个分子不同,预测化合物活性类别(ACs)的挑战在于需要考虑化合物对而不是单个分子。本研究使用机器学习深度学习方法,对超过100种化合物活性类别进行了大规模的AC预测。针对每个活性类别,通过识别ACs和nonACs(不符合ACs活性差异的分子对),建立分类模型来系统地区分ACs和nonACs。此外,与早期的研究不同,本研究定义和预测ACs基于类别特定的化合物效力分布中得出的统计显着活性类别依赖的效力差异。本研究的目的是使不同的AC预测方法能够进行直接比较,并提供跨多种化合物类别的预测准确性的总体评估

复合数据集来源

化合物活性类根据以下标准从ChEMBL数据库中获取:分子质量小于1000 Da,靶标置信度评分为9,相互作用关系类型为“D”(抑制剂或者拮抗剂),与靶标具有ki和kd活性值。每个活性类由符合条件的化合物组成,此外,活性类别还必须符合AC标准。

重定义活性悬崖

在MMP的生成中,使用Hussain和Rea提出的计算方法,生成具有共同中心结构但在单个位点上有取代基区别的化合物对,其中取代基不超过13个非氢原子,中心结构至少是取代基两倍以上。对于不同活性类别的化合物,采用基于活性类别的效力差异进行AC的定义,通过计算每个类别的化合物效力分布中的平均值加上两倍标准差,确定了AC的判定标准。为了平衡效力差异对于AC预测的影响,只有效力差异不超过十倍的MMP (∆pKi<1) 被分类为nonAC。

数据划分防止数据泄漏

研究人员采用了两种不同的方法生成训练和测试集来验证数据泄漏对模型的影响。一种是随机将100个活性类的MMP随机分为训练集和测试集,这可能导致数据泄漏的问题。另一种方法是采用高级交叉验证(AXV)方法,在每个活性类中随机选择20%的化合物作为保留集,在此基础上生成MMP并划分到训练集和测试集中。这种方法能够有效解决数据泄漏的问题。在此基础上,选择42个活性类进行预测和模型评估,以确保模型具有意义和可靠性。

实验结果

5.1 模型评估

图1总结了使用九种不同方法对100个不同活性类别进行AC预测的准确性。根据BA和MCC性能衡量标准,大多数模型都是预测性的,BA中值约为0.7或更高,MCC值中值为正,最高可达0.5。

图1 模型在100个数据集上的预测评估

5.2 训练集大小的影响

针对MPNN和FCNN等不同方法,研究发现训练集大小与预测精度之间没有显著相关性。过小训练集容易产生较差的预测模型,而大训练集通常能提高预测准确率。不过,不同方法的最佳预测精度来自于包括许多小集合的可变大小的训练集。

图2 数据集大小对模型精度影响

5.3 数据泄露现象

为了探究数据泄漏对预测的影响,作者使用了42个足够大的活性类别,使得训练集与测试集在化合物上没有重叠。在数据泄漏和没有数据泄漏的情况下进行预测,结果如图3所示。总体趋势与图1中观察到的趋势相似。然而,对于所有方法,如果训练集和测试集在结构上不同,预测精度会显著降低。尽管大多数模型在排除数据泄露后仍可预测,但BA值通常降至约0.6或更低,MCC值降至0.25以下。因此,无论使用何种方法,用于训练和测试的MMP之间的化合物重叠都对AC预测精度有很大的影响。

图3 数据泄露对预测精度的影响

5.4 平衡与非平衡训练集对模型影响

最后作者讨论了机器学习(ML)中常见的一个问题:训练数据集类别样本数量是否应该保持平衡。作者选择了包含最多AC的10个活性类别,并将用于训练的nonAC数目减少到与AC数目相同,平衡正负样本数量。然后,在有无数据泄漏的情况下,基于原始(非平衡)和平衡训练集分别建立了SVM和MPNN_sep模型,并进行了预测,结果如图4和5所示。

图4 支持向量机模型在平衡训练集与不平衡训练集上的精度


图5 MPNNs模型在平衡训练集与不平衡训练集上的精度

综合这些结果可以看出,对于这两种方法,基于不平衡和平衡的训练集,相对的模型表现取决于数据泄漏的存在与否。此外,召回率/精确度的特征随着数据平衡和泄漏情况的不同而不同,与预测准确度的趋势不同。当训练集和测试集之间存在化合物重叠时,由于减少了多数类,因此当训练集平衡时,MCC会降低。只有当训练集和测试集在结构上完全不同的情况下,才会观察到由于数据平衡而导致的MCC的增加。这反映了在AC预测中这些学习条件之间的错综复杂相互作用。

结论

在这项工作中,作者在更大的的范围内研究了AC预测,并重点比较不同ML模型复杂程度的预测精度。在大多数情况下,预测精度并不随ML模型的复杂程度而变化。SVM是100个总的类别中的首选方法。作者还证明了训练集的大小并不是影响AC预测准确性的关键因素,这也许是令人惊讶的。此外,AC预测的准确性取决于化合物对,因此化合物在不同AC的训练和测试集中重叠会有提高模型预测性能。相比之下,对于结构不同的训练和测试集,预测准确性明显降低,这样能够更现实地评估AC预测。同时,本文还发现不同的数据平衡和泄漏条件对模型性能有复杂的影响,会产生不同的预测特征和趋势

参考文献

Tamura S, Miyao T, Bajorath J. Large-scale prediction of activity cliffs using machine and deep learning methods of increasing complexity. J Cheminform. 2023;15(1):4. doi:10.1186/s13321-022-00676-7

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


JC | 使用机器学习和深度学习方法对活性悬崖进行大规模的预测的评论 (共 条)

分享到微博请遵守国家法律