Lingo3DMol:使用语言模型生成基于口袋的3D分子

今天给大家讲一篇2023年5月在arixv上发布的一篇关于基于靶点口袋的生成模型的文章,作者提出了Lingo3DMol模型,目前的生成模型缺乏捕获重要的三维空间相互作用的能力,并经常产生不合理的分子结构。而Lingo3DMol方法限制了搜索空间,引入了非共价相互作用(NCI)数据,并提出基于片段的FSMILES表示方式,从而为生成模型提供了结合模式的信息,并减少了生成不合理结构的数量。此外,根据类药性、合成可及性并减少了生成不合理结构的数量等评估标准可以得出结论,与其它模型相比,该模型生成的分子质量具有竞争性的优势。
基于结构的药物设计研究背景
基于结构的药物设计方法旨在设计能够与目标蛋白特定结合的分子。通常根据已知的靶标结构,使用计算机辅助药物设计(CADD)的技术来预测药物与靶标之间的结合模式,并进一步进行结构修饰和优化。
近年来提出很多基于分子图的分子生成方法,然而这类方法生成的分子往往存在一些不合理的结构,如大环,蜂窝状的并环等。举个例子,当n-1个碳原子已经确定时,该模型可以很容易地定位第n个原子,形成一个苯环。然而,若是上下文信息不足,初始原子的准确放置是有问题的则会生成不合理的结构。因此如何捕获类药分子的2D拓扑结构是很重要的。
一些基于口袋的分子生成方法如AR,Targetdiff,Pocket2Mol等,都是基于crossdock数据集来进行评估的,而该数据集主要是基于对接的,以及由一些人工生成的未验证的配体口袋对组成。此外,目前该划分策略只考虑了口袋相似性,因此存在配体数据泄漏的问题,在这个数据集上评估模型不能很好地反映真实场景的性能。
Lingo3DMol模型介绍
2.1 Lingo3DMol设计流程
如图1所示,Lingo3DMol由三个独立的部分组成:预训练部分、微调和NCI/锚点预测部分。这些框架共享相同的体系结构,但输入和输出略有不同。

2.2 FSMILES表示
这边介绍一下FSMILES的定义,即将片段作为SMILES序列的一个单元,其生成分子的流程如图2所示,整个分子使用特定语法的片段组成,基于深度优先的方式,以一个片段接着一个片段的方式生成一个完整的分子,该方法将生成化合物的空间限制在更理想的空间内,从而防止生成不合理的结构。其中限制的方式有三种,其一是单键不存在于环中,其二是单键与氢原子不相连,其三是环上至少连接一个单键。

实验结果
3.1 数据集
预训练数据集选自于商业库的两千万个分子,此外,为了确保类似药物分子的生成,作者对数据集进行了过滤了复杂的环结构,如大环、螺旋环和桥环,只保留了少于三个连续柔性键的分子,最终生成了1200万个分子。微调数据集源自于PDBbind数据,NCI数据集是通过开放药物发现工具包ODDT来对PDBbind中氢键、卤素键、盐桥和π-π堆叠进行标记。如图3所示,作者选择在DUDE数据集上评估模型的性能,用各种基准方法为每个靶标生成了1000个分子,并用Glide来计算对接分数。

3.2 消融实验
如图4所示,作者在DUDE数据集证明了上预训练在模型表现中起到的重要作用;具体来说,将在DUD-E数据集上进行了预训练的模型生成的分子和在同一数据集上未进行预训练的模型生成的分子分别与训练集中的分子进行比较。该方法表明预训练模型生成的分子与训练集的分子相比于未预训练的模型生成的分子更相似。此外,预训练显著地提高了对接分数,并提升了Dice系数,该指标衡量了生成的分子位置和实际配体在三维空间中的位置的覆盖程度。

3.3案例展示
除了高相似性以及较高对接分数以外作为评价生成分子是否可能是潜在活性分子以外,作者还考虑到会出现当采样时绑定姿态数量不足,导致一些生成的配体是通常可能是潜在的活性配体,然而得分却不高的情况。如图5所示,作者展示了高相似度低打分的情况,在使用对接程序进行绑定姿态采样时,“高相似、模型生成的分子与阳性分子相似,但对接分数较低(分别为-6.8和-6.4)。相反,在没有构象采样时,采用Glide Score的情况下进行评估时,这两种化合物得分分别为-10.2和-8.8。这个案例证明了在生成对接分数较差,生成的三维构象较精确的分子的有效性。

结论
作者设计了一个基于特定的扰动和恢复遮蔽原子的预训练任务,并对模型进行了微调以提高生成表现改成再对模型进行了微调从而改善了生成分子的质量。此外,利用额外的NCI/Anchor数据纳入输入口袋的特征中,从而提高了生成分子的对接分数。进一步,作者用旋转和平移增强法来增强模型的性能,并采用SE (3)如距离矩阵和局部坐标登不变特征来缓解3D分子生成中等方差性质的问题。
参考文献
Chen Z, Min MR, Parthasarathy S, Ning X (2021) A deep generative model for molecule optimization via one fragment modifcation. Nat Mach Intell 3(12):1040–1049
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn