多任务深度表征化对ADMET预测的改进
引言
在药物发现中,吸收、分布、代谢、消除和毒性(ADMET)的特性在确定潜在候选药物的疗效和安全性方面起着关键作用。从历史上看,ADMET的预测问题一直是造成临床试验失败的重要原因。为了解决这个问题,像默克公司这样的制药公司一直在利用他们的数据库,用假设驱动和模型引导的方法指导早期实验。
涉及基于计算机的模拟和预测模型的虚拟模型已被开发出来,以协助潜在候选药物的早期筛选。监督机器学习(ML)通常被用来创建这些模型。ML算法使用训练数据将输入表征(代表分子)映射到输出标签(代表ADMET特性)。传统上,分子被表示为一维的表征向量,而表征化过程往往需要特定领域的知识。表示分子表征的传统方法,如圆形指纹和原子对表征,在捕捉描述符之间有意义的相似性方面有局限性。这些方法将复杂的多维物体投射到一个单一的维度上,这导致了表征向量中比特的任意排列。这种安排需要由机器学习(ML)算法来重新学习。
图卷积神经网络(GCNN)通过分离分子的 "元素"、"杂化 "和 "键距 "成分提供了一种替代方法。GCNNs可以利用原子和键相邻的概念,使它们能够代表质量相似的描述符之间的概念接近性。每个分子由一个邻接矩阵和一个表征矩阵表示,多个图卷积层产生一个端到端的可区分指纹向量。这使得GCNN能够学习一个捕捉分子结构表征的表征向量。

在这项研究中,PotentialNet GCNNs的一个衍生物,称为MT-PotentialNet,被训练并与基于原子对描述符的随机森林进行比较。该研究还对RF和PotentialNet GCNNs在模型参数被冻结后记录的新化学实体的检测数据上的预测准确性进行了预测比较。
方法
该研究采用了用PyTorch训练的PotentialNet神经网络,并利用多任务学习来训练这些模型。基于RDCit、OEChem、NumPy和SciPy的定制Python代码被用于数据处理和分析。随机森林(RF)是使用scikit-learn和MIX库实现的,而xgboost模型是使用MIX训练的。
为了比较固定向量描述符和图卷积神经网络(GCNN),使用了多层感知器(MLP)和GCNN。MLP用一个平面向量表示每个分子,而GCNN用一个邻接矩阵和一个每原子表征矩阵表示分子。GCNN采用了图卷积层和图收集操作来生成一个端到端的可区分的指纹向量。对MLP和GCNN架构进行了并列比较。PotentialNet系列图形神经网络在基本图形卷积层的基础上进行了改进,被用于训练。这些模型在标准化的数据集上被训练和评估,重复的化合物被删除。本研究中使用的QSAR描述符是基于特定的原子对(AP)和通用的Donor acceptor pair 供体受体对(DP)描述符。
随机森林、xgboost和MLP深度神经网络被用作回归模式的QSAR方法。随机森林模型用默认设置或使用MIX库进行训练。xgboost方法是基于极端梯度提升算法的。检测的实验方法详见默克公司以前的文章。
结论
研究人员使用31个检测数据集进行了综合分析,采用了两个交叉验证分割,并对一个保留的测试集进行了预测。他们比较了多任务GCNN、单任务GCNN和RF模型的性能。结果显示在所有四个验证设置中都有统计学上的改进。在时间分割设置中,多任务GCNN的平均r2达到0.44,超过了单任务GCNN(平均r2为0.39)和RF(平均r2为0.30)。在时间加分子量分割的设置中,多任务GCNN实现了平均r2为0.28,而RF只实现了平均r2为0.12。在伪前瞻性验证设置中,与RF相比,多任务GCNN在预测被动膜渗透性和logD时显示出更高的r2值。
还对23个带有新化学实体的检测项目进行了前瞻性验证。与RF模型相比,多任务GCNN显示了平均0.10的r2改进,表明其在未来的时间窗口中具有准确预测的潜力。研究人员进一步比较了部分公开披露的化合物的预测结果,发现多任务GCNN在估计对数D等属性方面优于RF。


该研究强调了带有图形卷积的深度表征学习和多任务学习在预测ADMET端点方面的优势。与基于固定指纹的传统RF模型相比,基于神经网络的模型表现出更高的准确性。这一发现表明,利用大型数据集和采用深度学习技术可以提高ADMET特性的预测,帮助药物化学家探索未开发的化学空间,指导他们寻找最佳药物分子。参考资料:
Feinberg, Evan et al. "Improvement in ADMET Prediction with Multitask Deep Featurization.", <i>Journal of medicinal chemistry</i> 63.16 (2020): 8835-8848.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn