通过丰富数据改进多任务学习:在药物发现中的应用
01 多任务学习(MTL)在药物发现中的挑战与机遇
随着化学信息和多输出数据集的可用性的指数级增长,多任务学习已成为处理各种数据源和改进预测模型的常用方法。然而现在的主要挑战是在考虑到化合物与靶标之间的相互作用的情况下,如何估计 MTL 模型的适用域 (AD)。研究人员利用深度神经网络(DNN)进行多任务回归和分类建模。他们探索了丰富训练数据的方法,以此来扩展模型的 AD 并提高预测性能。之后,他们比较了该模型对已知化合物(用于训练)和新化合物(未用于训练)相互作用的预测能力。结果表明,丰富数据具有改进模型的潜力,但改进程度因所使用的数据而异。研究提出了一些建议,以帮助研究人员在药物发现中有效应用 MTL。

02 算法性能评估
研究人员使用 pQSAR(159) 数据集评估了基于 DNN 算法的回归任务性能。他们将预测结果与 pQSAR 算法获得的参考结果进行了比较。基于 DNN 的算法表现出了相当的性能,对目标的平均预测误差和中位预测误差略高。在中位确定系数方面,该算法也优于参考算法。此外,该算法还显示了计算筛选的前景,其性能略高于基线算法。

在使用 ViralChEMBL 数据集进行分类任务时,发现基于 DNN 算法的预测性能与参考 SGIMC 算法相当。两种算法的 ROC AUC 和 BA 得分相似,表明预测准确性相似。不过,研究人员发现,使用 PR AUC 评估高度不平衡数据集(如 ViralChEMBL)的分类性能可能会导致误导性结果,因此他们倾向于使用 ROC AUC 进行更平衡的评估。

2.1 训练数据对预测性能的影响
研究人员探讨了训练数据的数量和性质对回归建模的影响。他们比较了四种不同训练数据组成的方案。对于 pQSAR(159)数据集,丰富训练数据可提高 RMSE 和 R2 分数方面的预测性能。然而,对于数据密度较低的pQSAR(4276)数据集来说,改善效果并不明显。

与回归建模类似,使用 ViralChEMBL 数据集提高训练数据的信息值也能提高分类建模性能。随着数据的丰富,ROC AUC 和 BA 分数都有所提高。不过,提高的幅度不如回归建模那么大,这可能是由于数据集增加的相互作用相对较少。
2.2 用于模型训练的化合物预测
研究人员评估了模型对训练数据中已有化合物进行 "冷启动 "预测的能力。在回归和分类任务中,pQSAR(159) 数据集的结果令人满意。然而,可能由于数据密度较低,pQSAR(4276)数据集的预测性能有限。对未列入训练集的化合物进行冷启动预测,对于回归和分类任务来说都具有挑战性。以子集 "c "为代表的新型化合物的预测准确率在所有情况下都很低,这表明该模型难以对高度相似的化合物进行准确预测。

2.3 总结
在所有数据集和方案中,模型训练集(子集 "i")中所用化合物的预测性能都很准确。但是,对于训练集(子集 "c")中未包含的化合物,准确率则明显下降。这一发现强调了在训练数据中使用相似化合物以实现可靠预测的重要性。
03 关于在药物发现中应用多任务学习的建议
根据研究结果,研究人员为多任务学习在药物发现中的应用提出了宝贵的建议。
利用两个不同的测试集:使用两个测试集评估模型性能--一个测试新化合物,另一个测试模型已知的化合物。这种综合方法可以评估模型对已知化合物和新型化合物进行准确预测的能力。
评估每个靶标的性能:分别分析模型对每个靶标的性能。找出预测性能较好或较差的靶标将有助于完善和开发模型。
限制类似化合物的使用:避免使用多任务模型来预测与训练集中的化合物存在巨大差异的化合物的相互作用。将此类模型的使用限制在与训练中使用的化合物相似的化合物上,以保持预测的准确性。
增强训练数据:在训练数据中添加新的相互作用,特别是如果模型对特定相互作用的预测是可靠的。这种增强可进一步提高模型的整体性能。
加入新化合物的相互作用:为提高特定化合物的预测准确性,可添加与任何化合物的相互作用值,即使是那些尚未出现在训练集中的化合物。加入与新化合物的相互作用可以提高预测效果。
考虑数据富集比:根据数据集中可能存在的相互作用总数来选择相互作用的富集数量。较高的数据富集比(如 0.6% 的可能相互作用)可显著提高预测性能,而较低的富集比可能影响甚微。不过,考虑到化合物/靶标的多样性和数据稀疏性,这一发现还需要进一步研究。
参考资料:Sosnina, E.A., Sosnin, S. & Fedorov, M.V. Improvement of multi-task learning by data enrichment: application for drug discovery. J Comput Aided Mol Des 37, 183–200 (2023). https://doi.org/10.1007/s10822-023-00500-w
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn