欢迎光临散文网 会员登陆 & 注册

FRAGMENT- BASED LIGAND GENERATION GUIDED BY GEOMETRIC DEEP LEARN

2023-07-04 11:32 作者:Aster的小号  | 我要投稿

计算辅助设计新分子有潜力加速药物发现。最近有几个生成模型旨在为特定蛋白质靶点创造新分子。然而,药物开发中一个限制速度的步骤是分子优化,由于同时优化多个分子性质的挑战,这可能需要几年时间。我们开发了一种解决特定分子优化问题的方法:在硅中扩展一个小的、类似片段的起始分子,固定在蛋白质口袋中,使之成为与已知药物具有相似物理化学特性的较大分子。使用数据高效的基于E(3)等变神经网络和三维原子点云表示,我们的模型学习如何通过识别途中产生的逼真中间体,将新的分子片段连接到不断增长的结构上。该方法始终生成化学有效的分子,并将蛋白质口袋的所有相关三维空间信息纳入考虑。此框架通过多个针对结合亲和力、合成便利性和溶解度的性质评估表明,能够产生有前景的分子。总体而言,我们证明了在条件为蛋白质口袋的情况下,基于三维分子结构的扩展是可行的,同时保持良好的药物样物理化学特性,并开发了一个能够加速药物化学师工作的工具。

药物的发现和设计旨在寻找治疗人类疾病的新分子。这些分子与目标蛋白质和人体其他生物分子结合并控制其活性。然而,药物发现过程长且昂贵。可能的分子空间会一次又一次地进行探索和筛选,以便找出最有可能成为有效治疗药物的候选分子。将化学搜索过程从实验室转移到笔记本电脑上能够显著降低创造新药所需的资金、时间和人力工作量。虽然许多计算工具专注于识别初始候选分子的第一步,但这些分子的优化是药物发现中限制速度的一个步骤,可能需要数年时间。

在这项工作中,我们专注于一项特定的分子优化任务:将一个绑定在蛋白质口袋中的小型类片段起始分子扩展成更大、更具药物特性的分子。这个任务是分子优化中的一个常见挑战(Schneider & Fechner, 2005)。可以使用基于片段的筛选策略(NMR、X射线晶体学、虚拟筛选)和天然分子(激素、肽)来提供片段与三维蛋白质结构结合的起始方向。扩展这些类片段分子会得到更理想的药物性质,例如与蛋白质靶点的亲和力和特异性增加,与蛋白质结合位点的相互作用增强(Kuntz et al., 1999; Kenny, 2019; Hopkins et al., 2006)。然而,这个任务具有挑战性,通常成本较高的原因有几个。许多性质必须同时优化,其中一些对化学家和算法来说预测都具有挑战性。这些性质包括与靶蛋白结合(亲和力)、水和脂肪中的溶解度、分子大小和合成难度。当分子符合这些性质的可接受范围时,它们变成“类似药物”(Bickerton et al., 2012)。此外,化学空间巨大,不可能全面枚举;我们需要搜索策略以生成药物化学师能够使用的有用候选分子列表。人工智能代理有潜力高效解决每个问题,并利用快速增长的分子数据集,而不同于手工设计的方法。

不幸的是,当前的机器学习方法在分子生成方面不适用于这个任务。许多生成模型旨在产生全新的分子,而不是明确扩展初始候选配体(配体是可以结合蛋白质的分子)。基于变分自编码器的方法可以生成与输入分子相关的多样性分子,但在生成大于输入分子的分子方面表现出困难(Masuda et al., 2020)。另一个挑战是许多方法不会在蛋白质口袋的上下文中生成配体,并根据仅基于分子的度量进行评估,忽略了与蛋白质的相互作用。最近实验技术和计算工具,如AlphaFold的突破性改进,使得蛋白质结构更易获取;这些结构信息应该被利用(Varadi et al., 2021)。

为了解决这些问题,我们提出了一个基于行为克隆的三维、口袋感知的配体扩展框架。首先,我们将生成过程表示为3D空间中的一系列步骤,其中我们将新的分子片段附加到不断增长的种子分子上。我们经过精心策划的片段库简化了可能的操作,同时保持表达能力。为了选择要添加的片段和片段的几何形状,我们将这个步骤序列作为一个监督学习问题来处理,通过分子筛选从一个精心策划的配体-蛋白质结构(“专家”分子)数据集中生成状态-行动对的合成轨迹。然后,我们学习使用E(3)等变神经网络来预测和评分以3D原子点云表示的状态的行动。该架构允许我们将配体和蛋白质口袋的几何形状结合起来。这种健壮的方法不需要奖励函数,只生成有效的分子(遵循适当的价键规则),并在编码步骤中包含所有相关的三维空间信息。

我们根据12种分子特性对扩展配体进行评估,其中几种特性是我们研究独有的,涉及亲和力、合成便利性和亲水性。我们将我们的性能与根据最先进的对接函数选择行动的代理进行比较。引人注目的是,我们的代理能够生成与专家分子(我们精心策划的数据集中的已知配体)的属性分布相匹配的配体。这是令人惊讶的,因为我们的代理从未意识到这些最终性质,只在中间状态上接受训练。我们的方法还具有其他几个优点。我们能够从相对较少的独立训练样本(4000个蛋白质-配体对)中学习复杂的任务。其次,我们的方法是可解释的;代理的行为通常与化学家的直觉和基本物理原理一致。因此,我们的学习框架和相关数据集在配体优化的各种任务中可能非常有用。


FRAGMENT- BASED LIGAND GENERATION GUIDED BY GEOMETRIC DEEP LEARN的评论 (共 条)

分享到微博请遵守国家法律