欢迎光临散文网 会员登陆 & 注册

机器学习应用于药理学和ADMET终点的建模(一)

2023-04-06 18:54 作者:AIDDPro  | 我要投稿

近年来,由于数据、描述符和算法的重大进展,定量结构-活性关系(QSAR)的概念得到了极大的关注。本章回顾了机器学习(ML)方法,作为一种手段,利用许多化合物的体外/体内数据,为更有效的药物发现过程建立有用的模型。本章还将这些方法与其他数字药物发现方法放在一起,并介绍了一些应用实例。

ADMET的重要性

ADMET对药物开发十分重要!虽然靶点亲和力和选择性也很重要,但理化和药代动力学参数在决定候选药物的成功方面起着最关键的作用,对口服药物而言尤其如此。目前口服药物是市场上最常见的药物剂型,不良的化合物特性,如低溶解度,会在药物开发的后期阶段导致高损耗率。研究人员已经确定了与体外效力和ADMET有关的各种物理化学参数,从而开发了替代规则集,如五行规则、Veber规则和Gleeson的 "可解释ADMET经验法则"。机器学习方法,如QSAR和QSPR,也被用来预测候选药物的ADMET特性。ADMET的重要性也反应在该词在互联网上的搜索次数和在出版物的出现次数上。

学者对药物发现中与数据驱动建模有关的各种术语的使用情况进行了两项数据分析。第一项分析显示,"机器学习 "一词比 "QSAR "和 "ADMET "出现频率更高,且自2015年以来,其出现频率一直在稳步上升。第二项分析显示,含有 "QSAR QSPR "一词的出版物数量随着时间的推移增加了三倍。

数据、描述符、算法

在药物发现中创建稳定和预测性机器学习模型有三个关键因素:数据、描述符和算法。这些因素之间的相互依赖关系是非线性的,这导致了更复杂的算法的发展,如贝叶斯方法、支持向量机、随机森林和人工神经网络。我们将在后面一节将讨论最新的模型。

数据是关键

机器学习模型的质量和稳健性取决于基础数据。在机器学习中,有两种类型的数据:化学结构和检测数据。这两种类型的数据在用于机器学习之前都需要进行数据预处理。

3.1 实验分析数据

制药行业的化验数据通常存储在企业数据库中,但它可能不适合直接用于机器学习。为了准备机器学习的数据,需要与实验者密切沟通,以排除模棱两可的结果,提取感兴趣的化验数据。检测方法由四个部分组成:生物或理化测试系统、检测方法、技术基础设施以及数据分析和处理。生物系统和检测方法具有可变性,由于物质的最大溶解度、在DMSO中的储存、亲脂性化合物对玻璃或塑料的粘性、部分溶解度和沉淀等原因,都可能发生误差。识别错误的测量值和异常值是很困难的,而且模型的输入数据也有变化,这影响了后续的预测能力。

3.2 化学结构的标准化

化学结构的标准化是一个多步骤的过程,目的是通过实现分子描述符的计算来优化分子的信息含量。这个过程包括以下几个步骤:

  • 割盐类和混合物,只保留最大的片段,或应用盐类的匹配模式列表,从而形成一个化学实体。

  • 应用过滤器去除不需要的化学物质,如无机物或有机金属、不完整的结构、大分子,如肽或大环,以及在确定药理活性物质的实验特性时劈掉原药的留基。

  • 对存在于多个中间体的官能团,如芳香族和杂环族的环状系统或硝基,进行规范化处理,并将原子别名解析为明确的原子。

  • 典型的同分异构体形式标准化,以表示数据集中相同的易同分异构体的子结构,甚至更有问题的是,对于以后要预测的化合物。

  • 扁平化立体中心,因为大多数描述符包都不能处理立体化学问题。将结构过滤器应用于频繁命中的化合物,如PAINS或 "Hit Dexter",以避免在建立目标亲和力模型时由于非特异性结合数据而产生的噪音。

值得注意的是,不仅在模型训练期间,而且在模型应用时也应采用标准化。欧盟资助的联盟IMI MELLODDY已经开发了一个端到端的开源工具,名为MELLODDY_tuner,用于机器学习和药物发现的数据标准化。

3.3 机器学习中分析数据的预处理

在机器学习中我们需要预处理的三类数据:带有附加注释的数据、删减的数据和具有多个测试值的结构,包括异常值。删减数据用前缀">"表示右删减,"<"表示低删减数据,中间的删减值应始终被删除。多重值的处理很复杂,取决于应用的化学结构聚合。异常值(outliner)的处理也是一个很重要的问题。

有几种方法来处理数据中的异常值:

  • 移除:这是最直接的方法,即简单地将异常值从数据集中删除。然而,如果数据集很小或者有很多异常值,这种方法就会有问题。

  • 精简:在这种方法中,异常值被替换成最接近的非异常值。如果你不想删除任何数据点,但想减少异常值对你的分析的影响,这是一个有用的方法。

  • 剪切:这种方法类似于Winsorization,但不是用非异常值替换异常值,而是用预先确定的最大值或最小值替换。

  • 变换:对数据进行转换有时可以减少异常值的影响。常见的转换包括对数据进行对数或平方根处理。

  • 稳健方法(Robust methods):这些方法对异常值不太敏感,旨在处理具有高度变异性的数据。健壮方法的例子包括中位数、中位数绝对偏差(MAD)和Huber损失函数。

3.4 关于数据管理重要性的示例

Young等人的研究强调了数据整理的重要性,该研究表明,数据集中错误的分子会大大降低模型的准确性。我们提供了两个例子来说明数据整理所需的巨大努力和可能带来的好处。在一个例子中,拜耳公司提供了19,500个化合物的实验pKa值,这些实验pKa值与最先进的机器学习相结合,产生了一个表现最好的pKa模型,平均绝对误差从0.72降至0.5对数单位。在另一个例子中,对来自多个数据源的化学转化进行了严格的整理,以模拟药物化合物的代谢结果,并为第一阶段和第二阶段的药物代谢创建代谢位点(SoM)模型。由此产生的18,000个高质量的代谢反应为细胞色素P450介导的代谢提供了质量上的提高,并将其适用性扩展到非CYP和第二阶段的酶。

参考资料:

Göller A H, Kuhnke L, Ter Laak A, et al. Machine learning applied to the modeling of pharmacological and ADMET endpoints[J]. Artificial Intelligence in Drug Design, 2022: 61-101.

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


机器学习应用于药理学和ADMET终点的建模(一)的评论 (共 条)

分享到微博请遵守国家法律