欢迎光临散文网 会员登陆 & 注册

利用分子结构和生物活性与化学语言模型进行从头药物设计

2023-06-16 10:17 作者:AIDDPro  | 我要投稿

引言

这篇文章,作者讨论了计算方法在制药研究中特别是在先导化合物发现方面的作用。他强调了通过生成性深度学习模型生成的虚拟化合物库的使用,以扩大潜在候选药物的多样性。报告提到了虚拟筛选数十亿分子的挑战和假阳性的风险。研究人员采用数据驱动的方法基于神经网络的化学语言模型(CLMs)来生成重点虚拟化学库。用CLM创建重点虚拟化学库的过程包括三个主要步骤:模型预训练以学习分子的语法和特征,转移学习以使分子生成偏向于所需的化学空间,以及根据所学的分布对新分子进行采样。其他方法,如强化学习,也可用于CLM的开发。

同时,作者提出了一个分子设计管道,它结合了已知配体的结构和生物活性信息,利用CLMs生成定制分子。两个CLMs在一大套专利化合物结构上进行了预训练,并在磷酸肌苷3-激酶γ(PI3Kγ)的抑制剂上进行了微调,这是一个重要的药物靶点。该方法成功地产生了一种对PI3Kγ具有亚微摩尔活性的新配体,证明了该方法的骨架跃迁能力。几个排名靠前的设计被合成,并被发现是有效的PI3Kγ抑制剂,验证了该计算方法的先导化合物优化作用。

结果和讨论

2.1 用于生成分子的核取样

在使用CLM(条件语言模型)的分子生成中,涉及到了从一个 "开始 "字符扩展字符串,直到采样到一个 "停止 "字符或达到最大字符串长度。这些字符是根据CLM在训练期间学到的概率分布的加权随机抽样而反复添加的。温度参数用于控制概率和改善采样过程。通过缩小概率,生成的SMILES字符串的质量,如有效性、唯一性和新颖性,可以得到改善。此外,生成的虚拟化学库与参考数据的相似性可以用Fréchet ChemNet Distance(FCD)来衡量。为了防止CLM对不可能的SMILES字符进行采样,并反映模型对其预测的置信度,采用了 "核采样"。这种方法通过使用基于SMILES字符累积概率的概率阈值,只允许对最可能的字符进行采样。人们发现,核抽样可以提高新生成的分子在结构和生物活性方面与预训练集的总体相似性,这一点从较低的FCD值可以看出。在迁移学习过程中,它还能增强生成分子的新颖性。在转移学习过程中创建一个以PI3Kγ为重点的化学库的背景下,使用了阈值为0.85的核抽样。大量的SMILES字符串(2,500,000)在多个历时和重复中被采样,与训练和微调化合物相比,产生了1,121,735个有效、独特和新颖的分子子集。

2.2 生物活性预测

生物活性预测分子选择方面,采用了一个混合的CLM(条件语言模型)。该语言模型结合了生成模型分类器网络,以预测基于SMILES字符串的生物活性。生物活性预测任务被设定为一个序数分类任务,同时考虑到活性和非活性化合物。三个类别的标签被定义:基于pIC50值的 "无活性"、"中等活性 "和 "高活性"。对于无标签数据的特征学习,作者探索了两种不同的预训练策略:自回归预训练ELECTRA预训练。ELECTRA预训练方法涉及区分 "real "和 "corrupt "的输入字符,被认为更适合于提取有用的特征进行序数分类。这种预训练的模型被称为 "E-CLM"。对于生物活性预测,在预训练的CLM和E-CLM中加入了一个由三个神经元组成的额外前馈层(每类一个)。该网络为生物活性预测进行了微调,并应用了超采样以减轻类数据的不平衡。E-CLM在识别最活跃的分子方面优于标准CLM,同时最大限度地减少了将不活跃的分子误归为 "高活性 "的情况。与CLM相比,E-CLM在相同的真阳性率下取得了较低的假阳性率

为了提高对生物活性预测的信心,作者利用了深度集合模型,用多数投票法将多个模型的预测结合起来。通过考虑将一个分子归类为 "高活性 "的模型的数量,确定了预测的置信度。更高的置信度对应着更少的分子被预测为 "高活性"。在排名靠前的分子中,与微调组相比,相当一部分分子具有新的原子或分子骨架。预测的活性物质与微调组中的分子的相似度随着置信度的提高而增加。该方法显示了识别与已知生物活性物密切相关的分子和结构创新的化合物的潜力。该方法对结构-活性关系研究,先导化合物的扩展和分子骨架的跃迁很有价值。

合成和生物活性测试产生的分子

在这项研究中,研究人员根据为寻找先导化合物而进行的分子骨架跃迁练习所获得的结果,合成了两个计算机生成的分子(为17和20)以及它们的衍生物(18、19、21、22)。新设计的17和20是从E-CLM组合模型中获得高票的计算机生成的分子中选出的。这些分子在结构上与布鲁顿酪氨酸激酶(Btk)和PI3Kδ(23)以及PI3Kγ/δ(24)的已知抑制剂相似。

为了研究化合物17和20之间的差异,研究人员使用TIGER软件进行目标预测,并根据分子的骨架进行分组。分子骨架S1是新设计中最常产生的核心,TIGER预测了该分子骨架的PI3K结合或抑制作用。化合物17和20显示出有利的TIGER得分,并与已知的抑制剂共享类似的吡唑并嘧啶激酶铰链结合图案。化合物17和20以及它们的衍生物没有出现在CLM训练或微调数据中。然而,在测试PI3Kγ的直接结合时,它们在纳摩尔范围内表现出强大的活性。与命中的化合物1相比,合成的化合物表现出更高的活性,这反映在E-CLM的分数中。

使用GOLD软件进行了配体对接研究,以合理解释化合物1和化合物17-22之间的活性差异。对接结果表明,所有分子在人类PI3Kγ的活性部位都有合理的结合位置。估计的结合自由能与实验中的生物活性相关,表明氢桥对激酶铰链残基Glu880和Val882的重要性。

为了证实最强效的化合物(18和22)的生物活性,测试了它们对AKT/蛋白激酶B(PKB)激活的影响,以应对表皮生长因子受体(EGFR)引起的信号传导。这两种化合物都抑制了AKT在Ser473的磷酸化,表明它们有能力抑制细胞中的PI3K活性。化合物18和22对AKT磷酸化的减少与泛PI3K抑制剂的减少相当。

该研究表明,使用CLM(约束图变换器-编码器)的分子设计方法可以确定新的骨架和生物活性化合物的结构类似物,以寻找和扩大先导化合物。E-CLM集合评分对虚拟配体筛选很有效,但不能区分密切相关的强效配体。使用TIGER软件进行的外部目标预测是对CLM方法的补充。研究结果支持使用生成性深度学习方法在药物发现中寻找先导化合物参考资料:

Moret, M., Pachon Angona, I., Cotos, L. et al. Leveraging molecular structure and bioactivity with chemical language models for de novo drug design. Nat Commun 14, 114 (2023). https://doi.org/10.1038/s41467-022-35692-6

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


利用分子结构和生物活性与化学语言模型进行从头药物设计的评论 (共 条)

分享到微博请遵守国家法律