欢迎光临散文网 会员登陆 & 注册

J CHEMINFORMATICS | 药物设计中基于序列方法的骨架修饰模型

2023-03-06 12:42 作者:AIDDPro  | 我要投稿


今天给大家讲一篇在Journal of Cheminformatics上发表的关于基于smiles的骨架修饰的生成模型的一篇文章,作者提出了reinvent-scaffold-decorator模型,从具有多巴胺受体 (DRD2)活性的数据集对模型进行训练,并且来修饰特定的骨架,从而满足一定的可合成性,并获得预测对DRD2有预测活性的分子。该基于骨架修饰的方法作为基于图的骨架修饰方法的补充,有助于促进药物设计的发展。

前言

应用于药物设计中的深度生成模型可以看成是一种从有限的化合物中生成新结构的方法。生成模型如长短期记忆(LSTM)组成的递归神经网络(RNNs),变分自编码器或生成对抗网络在生成类药分子上体现了显著的优势。作者提出了一种基于骨架修饰的方法这使得使用该数据集训练的模型可以选择性地用片段装饰不同的骨架,并且附着的片段通常是被预测为具有可合成性的,并使用已知的合成方法连接到骨架上。因此模型能够使用特定的知识来修饰分子,则无需考虑强化学习的方法来迭代获取期望性质的分子。因此该方法有助于对已经存在的结构的从头分子生成

计算方法

2.1 算法整体流程

首先利用匹配分子对(MMP)算法来切割可旋转单键,并且保留环结构从而生成片段。然后,将生成的碎片分为骨架修饰片段。这样的话一个骨架可以有多个修饰片段,每一个都来自一个不同的分子,也保证了骨架的多样性。如图1所示,在收集到这些骨架之后,输入到修饰模型中,作者训练了两个装饰方法,一种是一次只修饰一个附着点,重复该方法直到所有的附着点都被修饰好。另一个是同时修饰所有的附着点。

图1 修饰分子的两种结构的流程图

2.2 骨架生成器

如图1所示,作者首先将SMILES的表征通过嵌入层一级三个相互连接的LSTM层的512维层,最后是一个线性层,将输入映射到词汇表大小。其中SMILES还包括特殊的连接点标记“[*]”。

图2 骨架生成器架构

2.3 骨架修饰策略

作者先将生成器输出的SMILES序列通过一个双向的RNN,并连接到三个512维的LSTM层的编码器,此外还引入了注意力机制,该方法将每一时刻中编码器两个方向的总输出与解码器当前时刻的输出结合起来,这样做可以使得解码器在任何给定的解码时刻中只着重关注于输入骨架的部分。

图 3 骨架修饰策略

实验结果

3.1 数据集

如图3所示,作者利用MMP算法对4,211个多巴胺受体D2(DRD2)活性数据(𝑝𝑋𝐶50≥5)进行切分,总共产生了137,061个骨架装饰, 5532个独特的装饰片段,并且多达4个附着点的骨架。

图4 骨架和修饰数量统计

3.2与已知化合物的虚拟筛选来比较化学空间

作者在ZINC数据库中筛选了与DRD2训练集谷本系数大于0.7的分子。当过滤条件设置为只包含验证集骨架的分子时,结果只得到了41个分子,比修饰模型得到的分子少了187倍。并且,根据zinc数据库中获得的分子与修饰模型生成的分子有一部分交集。

图 5 生成模型与虚拟筛选化学空间统计

结论

作者提出了一种新的基于SMILES的分子生成模型结构,它能够从骨架中生成分子。此外,还定义了一种算法,即通过彻底切割分子的无环键来获得所有可能的片段组合,将任意分子集处理成一个由骨架和修饰片段组成的集合。并基于DRD2的数据集来训练模型,从而获得大量的DRD2预测活性分子,并且期望通过这种基于SMILES的生成模型来作为基于图的骨架装饰方法的补充,以使模型学习到不同的特定属性来拿到更多的期望分子。

参考文献

Arús-Pous J, Patronov A, Bjerrum E J, et al. SMILES-based deep generative scaffold decorator for de-novo drug design[J]. Journal of cheminformatics, 2020, 12(1): 1-18.

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


J CHEMINFORMATICS | 药物设计中基于序列方法的骨架修饰模型的评论 (共 条)

分享到微博请遵守国家法律