【万字总结】机器学习在药理学和ADMET端点建模中的应用

2023-04-29 16:00 作者:张自信的小号 0人读过 | 我要投稿

Machine Learning Applied to the Modeling of Pharmacological and ADMET Endpoints（机器学习在药理学和ADMET端点建模中的应用）

参考书籍：人工智能在药物设计中的应用（Artificial Intelligence in Drug Design）

机器学习在药理学和ADMET端点建模中的应用 (第61-101页)

该书探讨了人工智能（AI）、机器学习（ML）和深度学习（DL）在药物设计中的应用。本书中的章节描述了如何应用AI/ML/DL方法来加速和革新传统的药物设计方法，如：基于结构和配体的、增强的和多靶点的新药设计、SAR和大数据分析、结合/活性的预测、ADMET、药代动力学和药物-靶点结合的持续时间、精准医学和选择有利的化学合成路线。介绍了这些方法的应用范围有多广，以及它们对今天和不久的将来的生产力有多大的影响。本书采用非常成功的《分子生物学方法》系列格式编写，各章包括对各自主题的介绍、必要的软件和工具清单、逐步的、易于复制的建模协议，以及关于故障排除和避免已知陷阱的提示。

本文在书籍(第61-101页)阅读基础上进行总结，并对部分概念进行拓展，希望帮助读者获得对机器学习在药理学和ADMET端点建模中的应用有更深的了解。

DOI：https://doi.org/10.1007/978-1-0716-1787-8

1. Introduction

在本书章节中，我们概述了用于模拟化合物性质的先决条件和计算方法，这些性质与早期药物发现阶段的决策相关，并补充了拜耳在过去20年中开发的基于计算机模拟的ADMET方法。我们将重点关注ADMET性质。在这篇综述中，我们集中讨论了第二种概念性方法，在这种方法中，许多化合物的体外/体内测量数据被用来使用机器学习（ML）来建立模型。我们总结了相关的综述、研究和拜耳在机器学习方面的经验，我们将讨论定制的分子和原子描述符和算法的最新发展，如（深度）神经网络。最后，我们提供选定的应用实例，特别强调整体药物发现方法。

2. Machine Learning Applied to ADMET Problems

2.1 The Importance of a Favorable ADMET Profile

物理化学和药代动力学参数的重要性：药物研发需要考虑到有利的物理化学和药代动力学参数，尤其是占全世界市场上所有剂型的80%的口服给药。
化合物特性与损耗率的关系：后期阶段的损耗与不良的化合物特性直接相关，而化合物的大小和亲脂性的增加会导致毒理学和临床安全性的损耗率明显增加。
Lipinski五规则及其他规则：识别决定候选药物风险因素的理化参数的最早尝试之一是Lipinski关于“五规则”的开创性工作，其他规则也相继提出。
ADMET机器学习的发展历史和应用情况 ADMET机器学习是从定量结构-活性或结构-性能关系（QSAR/QSPR）领域发展而来的，该领域起源于20世纪70年代，最近的评论表明这种方法的广泛应用。
机器学习在药物研究中的重要性通过谷歌趋势报告的分析和谷歌学术（Google Scholar）的数据分析来说明机器学习在药物研究中的重要性。与其他领域相比，机器学习是科学和公众关注的热门话题之一。无论使用哪个术语，基于数据的模型在药物研发和其他领域具有重要意义。

2.2 Data, Descriptors, Algorithms, Metrics

我们将讨论稳定和预测模型的三个关键因素，即数据、描述符和算法，以及用于识别这些因素的指标。在后面的部分中，我们将讨论模型更新的最佳实践、流程和策略。

2.3 Data Are Key

2.3.1 Experimental Assay Data

制药工业的实验数据通常存储在公司数据库中，但这并不意味着数据可以立即进行机器学习。历史上，实验定义和上传程序通常是为了允许研究项目直接使用数据，但并没有考虑其他进一步的使用。在2016年3月，科学家联合组成的一个贡献团体发表了一篇论文，提出了FAIR原则，以改善历史和未来数据的数据质量和访问性，并允许从原本不相关、不完整和有噪音的数据中获得洞察力。对于机器学习，必须提取感兴趣的实验数据，并排除模糊的结果。与实验人员的密切沟通对于数据科学家至关重要，因为多个实验参数决定了哪些数据可以用于建模。实验由四个部分组成：生物或物理化学测试系统、检测方法、技术基础设施和最后的数据分析和处理。

- 化合物测试系统受多种因素影响，导致模型输入数据的可变性增加，从而影响了可预测性的达成。

2.3.2 Standardization of Chemical Structures

化合物结构的总体处理流程

本文主要讨论使用化学结构进行模型训练和应用的潜在问题，并提出了一系列标准化处理流程。化学结构数据的问题数据库中和文件中提供的化学结构数据存在潜在问题。虽然软件可以检测和纠正明显的语法错误，但仍存在一些错误无法被检测和纠正。化学结构文件格式各不相同，例如SMILES不能编码“OR”-立体化学或相互依赖的立体中心集合，而SDF标准和国际化学标识符InCHi则可以。不同软件之间可能存在微小的差异，因此整个流程应该在模型训练和应用过程中保持不变。结构标准化处理结构标准化是一个多步骤的过程。应该根据具体问题确定处理的细节，但总体流程应该是相同的。标准化的目的是为了能够计算分子描述符，只需要保留可以通过这些描述符明确描述的分子特征。对于电荷状态、立体化学和互变异构体，应用严格的规则以优化描述符的信息内容。标准化应该在模型训练和应用过程中都采用。结构过滤处理首先需要将盐和混合物进行分离，并保留最大的片段或应用匹配模式列表以得到一个化学实体。然后需要应用过滤器，删除无用的化学成分，例如无机物或有机金属，不完整的结构等。依据建模任务，也需要根据分子量或结构模式匹配来过滤大分子，例如肽或大环化合物。对于在多重共振表示中存在的功能团，如芳香环和杂环系统以及硝基团，则必须进行规范化和解析原子别名。分子结构通常不包含氢原子，而是仅包含用于定义立体化学的明确氢原子。不一致的氢处理可能会导致描述符值的差异。酸性或碱性的功能团应该被中和，使得整个配体尽可能处于中性状态。存在永久带电的功能团，例如季铵盐。化合物可以存在多个互变异构体，且与溶剂或靶蛋白相关。标准化为规范互变异构体形式是一个有效的解决方案。后续处理处理立体异构体和混合物。可以针对一些频繁出现的中间产物进行结构过滤，以避免由于非特异性结合数据而引起的噪声。 MELLODDY_tuner工具 MELLODDY_tuner是一个开源的工具，用于标准化化学结构数据，旨在实现联邦和隐私保护的机器学习应用，以提高药物发现的效率。

讨论使用化学结构进行模型训练和应用的潜在问题，并提出了一系列标准化处理流程。开源工具：MELLODDY-TUNER（数据标准化） https://www.melloddy.eu/open-source-code-bases
2.3.3 Preprocessing of Assay Data for Machine Learning

本节主要介绍了标准化实验数据的过程，包括来自同一数据源和不同数据源的处理。在将数据从不同数据源组合起来时，需要处理多个测试结果值，这是最复杂的问题之一。同时，还需要注意三种数据分类的问题，即带有附加注释的数据、被屏蔽的数据（censored data，删减数据）和存在异常值的数据。

（1）其中，处理多个测试结果值的方法取决于分子结构的聚合方式和数据处理策略。对于多个测试结果值，如果值出现异常，则需要考虑排除或使用特殊算法去回归计算。（2）对于被屏蔽的数据，可以在分类器模型上使用，但在数值模型中必须进行排除或使用特殊算法进行回归计算。（3）对于存在异常值的数据，可以采用移除异常值的方法进行处理，需要考虑采用哪种策略来处理数据。在进行数据处理时，还需要根据特定的分子批次进行处理，并考虑聚合级别上的异常值处理。

- 三类数据需要整理：附有评论的数据、删减的数据和具有多个测试值的结构，包括异常值。例如，附加在化合物上的注释，如 "未完全溶解 "或校准问题，可以过滤掉那些不值得信任的实验。（三类数据的处理方法详见书中介绍）

There are three categories of data that require curation: data with attached comments, censored data, and structures with multiple test values including outliers.

2.3.4 Examples for the Effort and Importance of Data Curation

2.3.4数据监管/清洗的工作和重要性示例

- 本节主要讲述了两个例子，说明数据清洗的重要性。

2.4 Machine Learning Algorithms

2.4.1 History of Supervised ML Algorithms in Drug Discovery

2.4.2监督ML算法在药物发现行业中的优缺点本文主要讨论基于监督机器学习算法的化学信息学模型，并探讨了这些模型的基本原理、限制和发展情况。监督学习算法的基本思想化学描述符作为输入，检测数据作为输出。监督学习算法是基于化学结构对标签或结果变量进行预测的。线性和非线性学习算法初期主要使用线性学习算法（如PLS）进行物理化学参数的预测。生物分子相关的预测需要更复杂的非线性算法。近年来，RF和Deep NN（神经网络）成为主流的非线性学习算法。随机森林的发展随着技术的不断发展，RF在过去二十年中一直保持着稳步发展。 “树提升”技术的发展助推了RF的发展。 XGBoost的出现使得RF在各领域均得到广泛应用。

- 本文主要讨论基于监督机器学习算法的化学信息学模型，并探讨了这些模型的基本原理、限制和发展情况。

2.4.2 Pros and Cons of Supervised ML Algorithms in Drug Discovery Industry

2.4.2监督ML算法在药物发现行业中的优缺点本文主要讨论监督机器学习算法在化学信息学模型中的表现，并对线性和非线性学习算法进行比较。 1. 线性和非线性算法的对比 - 线性算法通常适用于“生理化学性质”这类渐进性质的预测。 - 非线性算法包括随机森林，深度神经网络等，能够预测更复杂的生物分子相关预测。 2. 随机森林的优点 - 随机森林是工业应用广泛的一种非线性算法，在Bayer的ADMET平台上表现出了很好的性能。 - 配合环形指纹使用，随机森林可以获得良好的预测性能。 - 随机森林的超参数配置默认情况下往往已经是最优的，不需要对其进行调整。 - 随机森林的投票机制可以作为单个预测的置信度估计。 3. 深度神经网络的优点 - 在数据集很大时，深度神经网络的表现远优于其他算法。 - 深度神经网络不需要手动设计特征，因此可以处理不确定来源和格式的数据。 - 深度神经网络可以将不同类型的数据（如图像、光谱和活性数据）进行结合。

- 本节主要讨论监督机器学习算法在化学信息学模型中的表现，并对线性和非线性学习算法进行比较。

2.5 Descriptors

2.5.1 Molecular Descriptors

一个详细的参考：Computing Molecular Descriptors - Part 1 - Phyo Phyo Kyaw Zin

ChatGPT 4.0

在机器学习的QSAR建模中，通常使用0D、1D、2D和3D描述符。4D描述符较少用于QSAR建模。这些描述符分别表示： 0D：零维描述符，表示分子的全局属性，如分子量、原子数量等。 1D：一维描述符，表示分子的线性属性，如原子序列、键的类型等。 2D：二维描述符，表示分子的拓扑属性，如分子图、环的数量、连接性等。 3D：三维描述符，表示分子的立体属性，如立体构象、分子表面积、体积等。这些描述符在QSAR建模中有助于捕捉分子的不同特征，从而提高模型的预测性能。

本文主要讨论化学结构和分子性质之间关系的机器学习中使用的特征抽象方法，围绕五类主要特征（0D、1D、2D、3D和4D）进行分类和讨论。特征分类根据来源分类为实验性描述符和理论描述符。按维度分类为0D、1D、2D、3D和4D，涵盖的内容从分子重量、脂溶性等基础性质到图像拓扑、分子表面的更高级描述。不同维度的特征抽象具有各自的优缺点，但都可以在不同应用场景下取得成功应用。抽象方法基于预定义描述符的传统方法虽然广泛应用，但通常需要经过多次试错才能找到最佳实现方式。另一种相对较新的方法是通过算法学习从原始化学结构中提取最相关的特征，有效解决了特征选择和调参的问题。

- 0D描述符（也称为constitutional descriptors）：描述分子的基本性质，如分子量、溶解度、脂溶性等。 - 1D描述符：将分子表示为一组文本或结构片段，也称作list of structural fragments或fingerprints。常见的1D描述符包括Daylight fingerprints、MACCS keys等。 - 2D描述符：将分子视为一个平面图，表示原子之间的化学键和它们的环境关系，也称为graph invariants。2D描述符通常用于药物分子的设计和筛选。 - 3D描述符：将分子在三维空间中表示，以更准确地描述其物理和化学性质。例如，基于分子的电荷分布、表面积和形状等制定的描述符，可以为药物分子的活性建立更准确的预测模型。 - 4D描述符：一种更高级别的特征抽象方法，考虑了分子在时间上的变化。这些描述符可以用于描述局部结构的活性、动力学特性等。

2.5.2 Atom Descriptors

本节主要讨论机器学习在处理关于原子反应性的问题时，针对原子及其周围特性进行编码所涉及的描述符。作者提供了一份有关原子描述符的综合概述。由于反应性是由原子的电子分布和化学环境决定的，因此使用量子力学从原子推导出描述符是一个很明显的选择。在许多应用中，描述符值是直接从量子化学计算中检索的，如反应或过渡态能量，原子电荷等。对于其他应用，设计了由量子力学描述符组成的复合描述符。同时，还存在一些基于经典邻域编码的原子描述符可用于预测代谢部位和Diels-Alder 反应的区域选择性。

New Bing：原子描述符是一种用于描述分子或固体中原子的性质的工具。它们通常用于材料科学和计算化学中，以帮助研究人员理解材料的性质和行为。原子描述符可以提供关于原子的位置、电荷、电子云、键长和键角等信息，这些信息对于预测材料的性质和行为非常重要。在计算化学中，原子描述符可以用于预测分子的反应性、稳定性和光学性质等方面。在材料科学中，原子描述符可以用于预测材料的力学性质、热力学性质和电学性质等方面。

- 本节主要讨论机器学习在处理关于原子反应性的问题时，针对原子及其周围特性进行编码所涉及的描述符。

2.6 Performance Metrics

本节主要介绍模型评估的重要性，包括评估模型准确性和鲁棒性的方法以及分类和回归问题的不同评估指标。模型评估对于有效使用是至关重要的，因为它们需要准确和稳健，即在一定时间范围内稳定且有预测性。在嵌套交叉验证（CV）和独立测试集中评估模型质量可确保其在训练所用化学空间之外具有强大的性能。回归模型常用的评价指标包括：R2（决定系数）、均方根误差（RMSE）和Spearman's rho。R2是决定系数，它给出数据与回归线拟合程度的信息。理论上，R2可以为1，但通常在0到1之间。对于生物相关值范围内的预测属性，需要计算R2，而不是全局范围内的R2。RMSE是残差的标准差，它指示预测值与实际数据点之间的接近程度，并且是可靠的通用误差度量。Spearman's rho是一种非参数秩相关系数，它适用于分类问题。

分类模型常用的评价指标包括：混淆矩阵（也称为列联表）衍生出的多个指标。其中，整体准确率是所有正确预测对象占所有对象的比例。在高度不平衡的数据集中，整体准确率可能会误导模型性能。此时，平衡准确率将很有用，因为它是特异性和灵敏性的算术平均值。特异性或真负率是被预测为负类别的实际负样本占所有实际负样本的比例，灵敏性或真正率是被预测为正类别的实际正样本占所有实际正样本的比例。假阳性和假阴性率是虚假预测阴性/阳性占所有观察到的阴性/阳性的比例。另一个更关注预测而非观察值的指标是阳性预测值（也称为精度），它显示了所有预测为阳性的正确预测阳性占所有预测阳性的比例。对于负预测，这称为负预测值。聚焦于正值的组合指标是F-Score，它是精度和灵敏度的调和平均值。最常用的F-Score是F1，其中精度和灵敏度权重相等。Matthews相关系数（MCC）是回归系数的几何平均值，也适用于具有不平衡类分布的分类问题。最后但并非最不重要的是Cohen's kappa，它也是一个良好的度量标准，可以处理不平衡的类分布，并显示分类器与根据每个类别频率随机猜测的分类器相比有多好。另一个流行的指标是接收者操作特征（ROC）曲线，用于可视化分类算法的性能。它描述了所有可能分类阈值的真阳性率和假阳性率之间的相关性。理想的ROC曲线从（0,0）到（0,1）到（1,1），没有假阴性或假阳性预测，代表完美分类。从（0,0）到（1,1）的对角线代表无区别线，并且是最差情况。ROC曲线下面积（ROC AUC）是用于描述ROC曲线的数值度量。

回归模型
分类模型

2.7 Identification of Stable and Performant Models

2.7稳定性能模型的辨识本节主要介绍机器学习过程的最佳实践，这种方法已经发展了20年，并且现在通常被应用。该实践流程是在建立欧盟化学品注册、评估、授权和限制（REACH）的过程中制定的。不遵循这些最佳实践通常会导致模型在其预期应用场景中无法正常工作。这篇文章概述了该实践的具体步骤。其中包括： 1.准备训练数据，即化合物标准化和测试数据预处理。 2.将数据集分为训练集、验证集和外部测试集。 3.计算描述符。 4.选择算法和相关的超参数以优化。 5.模型训练，包括应用内部验证策略。 6.使用适当的指标对模型性能进行评估。 7.根据内部验证步骤选择模型进行外部验证。常用的验证策略包括交叉验证、自助法和Y-重组法。只有通过内部验证的模型才需要进行外部验证步骤。除此之外，本文还介绍了分类模型和数字模型的不同度量标准，讨论了模型的适用域、性能降低和重新训练等问题。

识别稳定模型的一般程序，包括基于数据集分为训练集、测试集和外部验证集的内部和外部验证。（改编自经合组织指南）

![image-20230429153930771](markdown-img/Machine Learning Applied to the Modeling of Pharmacological and ADMET Endpoints.assets/image-20230429153930771.png)

本节主要介绍机器学习过程的最佳实践，这种方法已经发展了20年，并且现在通常被应用。文中具体给出了流程（共7步）。
1.准备训练数据，即化合物标准化和测试数据预处理。
2.将数据集分为训练集、验证集和外部测试集。
3.计算描述符。
4.选择算法和相关的超参数以优化。
5.模型训练，包括应用内部验证策略。
6.使用适当的指标对模型性能进行评估。
7.根据内部验证步骤选择模型进行外部验证。

2.8 Applicability Domain

本节主要谈论了基于有限训练集的监督学习模型存在的问题，以及如何增强模型的准确性和可信度。有限训练集的问题监督学习模型的训练数据通常来自特定化学空间内的分子或标准化物理化学或药代动力学测定中的多样化分子，而这两种情况下模型的预测可靠区域都是受限的。随着将大量未知分子推入到模型中，预测准确性可能会受到影响。信息补充提高模型准确性对于一些预测（例如代谢稳定性、CaCo-2渗透性和外流），提供预测本身的“可信度”，以支持关于个别计划或尚未测定的分子的判断。介绍了不同的应用域（AD）测量方法，包括采用距离测量的“新颖性检测”和量化分类器决策边界距离的“置信度估计”等方法。其中，置信度估计被认为是更好的方法。随机森林由设计就是集成模型，因此具有内置的置信度估计器，可给出类概率估计。而支持向量回归（SVR）等其他算法则缺乏一个可比较的置信衡量标准。神经网络也提供适当的应用域测量，但仍不如随机森林表现良好。

本节主要谈论了基于有限训练集的监督学习模型存在的问题，以及如何增强模型的准确性和可信度。
灵感：拜耳每周自动重新训练的随机森林模型对抑制剂的体外稳定性进行预测。

2.9 Models for Complex and Multiple Endpoints

2.9.1 Modeling Physicochemical ADMET Endpoints with Multitask Graph Convolutional Networks

2.9.1使用多任务图卷积网络建模物理化学ADMET端点本节主要讨论了多任务模型在药物发现中的应用，包括使用深度神经网络进行多个性质端点预测和标准分子结构处理流程。（1）其中，多任务学习的主要优点有正则化、迁移学习和数据集增强等。2016年，Kearnes等人进行了第一次基于深度神经网络的单一任务与多任务算法的比较，证明多任务学习相比单一任务模型可以提供适度的优势，并且小型数据集更容易受益于多任务学习。（2）最近，多任务图卷积网络被成功应用于预测药物吸收、分布、代谢和排泄等方面。虽然多任务设置并非总能显著提高性能，并存在计算成本高、过拟合风险和优化超参数稳定性问题等缺点，但在某些情况下，它们能够提供突破性的优化效果。

- 本节主要讨论了多任务模型在药物发现中的应用，包括使用深度神经网络进行多个性质端点预测和标准分子结构处理流程。

2.9.2 Modeling of In Vivo Endpoints

本节主要讨论药物动力学和药效学的相关参数，包括口服生物利用度、吸收、代谢、非特异性血浆蛋白和组织结合以及排泄等。同时介绍了化学结构标准化处理和机器学习应用于模拟这些参数的研究。具体分点如下：数据质量和标准化处理物理化学或生物化学体外实验的数据质量受制于先前讨论过的参数，如检测分辨率或化合物纯度等。体内实验则涉及动物个体差异和更为复杂的实验设计，需要更加严谨的实验控制。化学结构数据的质量存在潜在问题，需要进行标准化处理。口服生物利用度和药物动力学的相关参数口服生物利用度是一种重要的药代动力学参数，可通过体内实验提取，但需注意动物种类差异。通过测定影响口服生物利用度的多种指标进行计算，如溶解度、脂溶性、pKa值、膜通透性、游离率和肝清除率等。机器学习在药物动力学和药效学参数模拟中的应用以先前研究为基础，介绍了使用结构描述符、体外ADME性质、实验测定值或混合输入进行机器学习的相关工作，并提出了多种预测模型。在本文的研究中，通过建立生理学模型，并利用实验测定值或计算模拟测定值作为输入，成功建立了口服和静脉注射时给药后药物暴露度的模型，同时也可根据化学结构实现低口服生物利用度的二元分类预测模型。

- 本节主要讨论药物动力学和药效学的相关参数，包括口服生物利用度、吸收、代谢、非特异性血浆蛋白和组织结合以及排泄等。同时介绍了化学结构标准化处理和机器学习应用于模拟这些参数的研究。

2.9.3 Modeling of Drug Metabolism

本节主要讨论药物代谢中的药物转化过程以及相关模拟方法。药物代谢对药物效果的影响药物代谢是生物体防御有害物质的机制之一，通过肝脏等器官的作用将药物转化成更易排泄的形式。药物代谢可能导致有效剂量降低、药物代谢产物毒性、药物代谢酶的抑制或诱导、药物相互作用以及耐药等问题。药物代谢受到多种因素的影响，包括性别、遗传多态性、年龄、饮食和生活方式等。药物代谢的两个阶段和机制药物代谢可分为两个阶段，其中第一阶段主要由细胞色素P450酶介导，在氧化还原反应中增加药物的极性。第二阶段主要由UDP-葡萄糖醛酰转移酶、硫转移酶和谷胱甘肽S-转移酶等多种酶介导，通过结合特定分子片段将药物代谢产物排泄出体外。预测药物代谢的计算方法传统的实验方法受到效率和能力限制，因此出现了多种计算方法用于预测药物代谢过程。这些方法包括基于对接、分子动力学和量子化学计算等的计算模拟和机器学习等方法。基于机器学习的方法较为广泛应用，可以针对不同药代动力学参数进行预测。例如，使用基于原子反应活性的描述符建立的模型成功地预测了18种药物代谢转化过程。

- 本节主要讨论药物代谢中的药物转化过程以及相关模拟方法。

2.10 Application Examples

2.10.1 Bayer’s Integrated ADMETPlatform

拜耳的ADMET模型组合及其随时间的演变。通过颜色编码给出了模型性能的定性度量。

![image-20230429154057723](markdown-img/Machine Learning Applied to the Modeling of Pharmacological and ADMET Endpoints.assets/image-20230429154057723.png)

本节主要阐述了机器学习模型的前提条件、流程和验证，并提出了两个重要的步骤：将模型放在易于使用的平台上，并不断向用户进行交互和训练。将模型放在易于使用的平台上通过Pix 数据检索和分析平台，使计算化学中的模型对拜耳制药研究员以及后来的CropScience 研究员可用。随着模型和模型质量的不断提高，手动模型再训练的工作量变得越来越大。对模型进行定期再训练定期重新训练模型有助于模型在项目中表现更好。每周提取所有测试数据进行数据清洗和聚合，并存储到数据湖中，接着从中提取机器学习所需的数据进行模型再训练。自动化流程确保数据完整性和模型稳定性。在处理流程中透明地记录了特定端点及其数据问题的知识，避免了信息丢失。工业工程方法的机器学习释放了科学家的资源，能够定期检查模型设置并探索新的方法和新的端点，以此来优化药物研发过程。

本节主要阐述了机器学习模型的前提条件、流程和验证，并提出了两个重要的步骤：将模型放在易于使用的平台上，并不断向用户进行交互和训练。
灵感：感觉对实验室的ADMET预测平台很有意义，能实现的话就不需要重复训练而能一直更新了
2.10.2 Guiding the Design of Combinatorial Libraries

本节主要讨论药物研发项目中使用计算化学方法和高通量筛选（HTS）方法的优缺点，并介绍了拜耳制药公司通过Next Generation Library Initiative（NGLI）增强HTS化合物库的经验。计算化学方法和HTS方法的优缺点虚拟筛选和de novo设计等计算化学方法可以帮助产生新的化学物质，是一个重要的起始点，但实验测试仍然是识别高效分子的可靠工具。实验测试使得化合物库的减少（1）通过消耗物质和（2）由于任何Hits（苗头化合物）将间接地暴露一定部分的化合物空间。 NGLI的经验通过NGLI倡议，设计了500,000个新化合物用于填补失去的化合物库。化学框架和合成计划由药物化学家或者基于结构的设计由计算化学家在目标类团队通过“众包”提供，最后的修饰则通过多个化合物属性和多样性的Pareto优化进行选择，实现每个化合物库400-600个化合物的生产。

- 本节主要讨论药物研发项目中使用计算化学方法和高通量筛选（HTS）方法的优缺点，并介绍了拜耳制药公司通过Next Generation Library Initiative（NGLI）增强HTS化合物库的经验。

2.10.3 Combining Cheminformatics and Physics-Based Methods in Lead Optimization

2.10.3在先导化合物优化中结合化学信息学和基于物理学的方法

本节主要讨论药物优化中多个分子属性的优化问题以及如何通过化学信息学和基于物理学的方法结合解决大型虚拟化学空间中化合物的优先级问题。具体分为以下几点：多参数优化问题药物优化中存在多个分子属性需要优化。这些分子属性彼此不独立，优化其中一个可能会影响其他属性。如何有效平衡这些参数是药物发现项目的关键挑战。化合物优先级的确定前期优化已经得到一个具有高效性和良好选择性但在人体内代谢半衰期不足的化合物。从药物化学和计算机分子设计领域的同事手中获取一些可能对核心进行修饰的残基信息。列出所有想要的残基的组合的可能性，形成超过60,000种合成可行的虚拟化学空间，因此需要有效的优先级设置。综合方法的应用我们使用了基于机器学习的ADMET模型、局部模型和基于FEP法的物理学结合化学信息学的Free-Wilson QSAR方法来确定化合物的优先级。这种混合方法极大地拓宽了传统Free-Wilson方法的适用范围。本节主要讨论了一项概念验证研究，通过计算最小的71个结合亲和力数据集，评估了基于Free-Wilson分析的方法在预测大型虚拟化学空间中化合物的活性方面的准确性。文章还讨论了影响结果质量的关键因素，以及在药物发现过程中模型的局限性。 1. 方法准确性研究 - 使用Schrodinger的FEP/REST（FEP+）方法计算最小的71个结合亲和力数据。 - 结合亲和力计算的准确性可能因不同的靶标和化合物类别而异。 2. 影响结果质量的关键因素 - 应用方法、采样、系统设置、力场以及实验测定和计算数据之间的可比性。 3. 结果分析 - 观察到的平均无符号误差（MUE）较低，为0.8 kcal/mol。 - 使用基于计算的Free-Wilson方法，观察到的MUE为1.6 kcal/mol，虽然不足以满足导向优化的需求，但仍可作为初步筛选步骤。 4. 药物发现过程中的模型局限性 - 药物发现仍然是一个充满挑战的过程，主要依赖试验和错误。 - 模型在提供有用信息方面存在局限性，不能完全替代实验数据。 5. 未来发展趋势 - 预计未来将有越来越多的成功应用案例采用整体方法进行药物发现。 - 模型仅是辅助药物发现过程的众多工具之一。

- 本节主要讨论药物优化中多个分子属性的优化问题以及如何通过化学信息学和基于物理学的方法结合解决大型虚拟化学空间中化合物的优先级问题。 - 本节主要讨论了一项概念验证研究，通过计算最小的71个结合亲和力数据集，评估了基于Free-Wilson分析的方法在预测大型虚拟化学空间中化合物的活性方面的准确性。文章还讨论了影响结果质量的关键因素，以及在药物发现过程中模型的局限性。 - 灵感：基于FEP计算建立机器学习模型基于FEP计算建立的机器学习模型在评价化合物活性时使用的指标是平均无符号误差（MUE）。在一项概念验证研究中，通过计算最小的71个结合亲和力数据集，评估了基于Free-Wilson分析的方法在预测大型虚拟化学空间中化合物的活性方面的准确性。研究发现，使用基于计算的Free-Wilson方法，观察到的MUE为1.6 kcal/mol，虽然不足以满足导向优化的需求，但仍可作为初步筛选步骤。虽然这是一个原型示例，但它展示了在大型虚拟化学空间中优先考虑化合物的高潜力的高潜力的方法。为了提高准确性，可以在过滤过程的最后一步对少量的化合物进行显式的FEP计算。

3 Summary and Outlook

本文主要讨论药物发现领域中基于定量结构-活性关系（QSAR）的机器学习模型，以及在数据、算法和描述符等方面的不断发展。其中，通过自动化测试技术和区块链等新技术，化合物结构活性数据得到了极大的增加，为建立更加准确的机器学习模型提供了更为广泛和多样化的数据源。

此外，对于ADMET方面的数据，由于相关实验具有标准化和可重复性等优势，并且ADMET问题在药物发现中也经常出现，因此机器学习模型在该领域得到了广泛应用。

然而，在药效方面，数据稀缺性仍是制约机器学习模型应用的一大瓶颈，因此目前药物发现领域开始采用综合考虑药效、PhysChem和ADMET等多指标的综合药物发现方法，其中融合了机器学习模型和基于物理的计算模型等众多方法，这些新方法将对未来药物发现领域带来深刻影响。

标签：