DEL-Dock:一种结合分子对接和DNA编码的建模方法
近日,一篇关于DNA编码文库联合AI用于药物发现的文章《DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries》于2023年5月发表在JCIM杂志。作者介绍了DNA编码文库(DEL)技术的应用并提出了一种新的分子亲和力预测方法-DEL-Dock。DEL-Dock结合了基于配体的描述符和从对接蛋白质-配体复合物中获取的三维空间信息来进行分子筛选。该方法可以有效地去除DEL实验中的噪声值,并预测分子富集得分,从而更好地预测分子的结合亲和力。

研究意义
相对于传统的高通量筛选(HTS)技术,DEL能够在单个管中测试约1百万到50亿个化合物,有效的对广泛的化学空间进行探索,在命中物筛选中开创了新的机会。如图1所示,DEL涉及构建一个大型的小分子库,每个小分子都被贴上一个独特的DNA条形码。这些小分子,也被称为 "合成物",通过化学反应依次组装起来。然后,通过实验测试该库对感兴趣的蛋白质的亲和力。在这个过程中,DEL与固定后的蛋白质混合,产生的混合物经过几轮洗涤,以确定仍与目标或者基质结合的成员。这些结合的分子随后用第二代DNA测序来鉴定。然而,来自实验的DEL数据可能包含各种噪音来源。

随后,作者介绍了DEL (DNA-Encoded Library)中现有的计算方法,这些方法主要通过计算分子的富集得分来预测分子与蛋白质的结合亲和力。在现有的方法中,一些方法只考虑了分子的计数信息,而忽略了分子的结构信息;另一些方法则将分子的结构信息与计数信息结合起来,但仍然忽略了分子与蛋白质的三维结构信息。为了更好地利用分子与蛋白质的三维结构信息,本文提出了DEL-Dock模型,该模型将分子的结构信息与蛋白质与配体的结合位点信息结合起来,通过生成配体的构象来预测分子与蛋白质的结合亲和力。该模型通过综合多模态信息,学习分子的富集得分,并且能够更好地分离信号与噪声值。
模型
DEL-Doc模型将分子级别的描述符和蛋白质与配体的结合位点信息结合起来,用于模型学习蛋白质与配体结合的潜在特征(图2)。分子级别描述符使用RDKit计算的Morgan指纹表示。蛋白质与配体的结合位点信息使用GNINA预训练的基于CNN模型,该模型通过将空间转化为三维体系并利用CNN学习复杂的层级表示,捕捉了蛋白质与配体相互作用的重要特征。这两种模态的结合可以更好地捕捉蛋白质与配体相互作用的复杂性,并提高结合亲和力的预测能力。

数据处理
训练数据集:作者使用由Gerry等人公开收集的DEL数据集来训练模型。该数据集包含约10万个分子,用于人类碳酸酐酶IX (CAIX)蛋白的筛选实验。数据集包括目标蛋白质的结合次数和无靶对照组。每个重复计数集均进行了归一化处理。处理后的数据集被用于训练模型。
测试数据集:作者收集了BindingDB数据库中带有CAIX蛋白的结合亲和力数据的3041个小分子用于评估模型的性能。此外,作者设计了该数据集的一个子集,其中分子量的范围对应于训练数据集分子量的四分位距范围,限制了分子量的上下限,使得区分分子的难度更大。
分子对接:作者使用GNINA对训练和测试数据集中的所有分子进行对接,生成这些分子与目标蛋白质结合的构象,保留20个对接姿势。
实验结果
4.1 模型性能评估
首先在DEL数据集上训练模型,然后预测具有外部测量的实验结合亲和力的分子的富集得分,并通过测量预测富集得分与实验亲和力测量之间的Spearman秩相关系数来评估性能(表1)。DEL-Dock模型优于仅使用对接评分或分子描述符的基线模型。仅使用AutoDock Vina生成的传统对接评分得分表现最差,这与之前的观察结果相符,即仅使用对接评分通常不可靠。基于GNINA的CNN模型对对接位姿进行重新评分后得到了极大的改善。此外DEL-Dock模型在更具挑战性的子集上获得了约2倍的更好的Spearman相关性改进,优于所有其他基线模型。

4.2 模型预测分析
DEL-Dock模型不仅在预测实验结合测量方面表现良好,还捕捉到了有关影响结合的结构和化学因素。含苯磺酰胺的化合物被证明是小分子结合碳酸酐酶的主要化学基团。虽然作者没有将这个信息显式地作为模型的学习信号,但作者观察到模型能够学习到这种关联,含苯磺酰胺的分子预测的富集比不含苯磺酰胺的分子更高(图3a)。苯磺酰胺与碳酸酐酶结合的一个重要结构组成部分是磺酰胺基与活性位点内的锌离子的协同作用。作者比较了AutoDock Vina、GNINA和DEL-Dock模型在评估数据集中所有1581个含苯磺酰胺分子的顶部选择对接位姿的锌-磺酰胺距离分布(图3b)。作者发现DEL-Dock模型正确协调了最大比例的位姿,而AutoDock Vina或GNINA则表现不佳(图3c)。DEL-Dock方法可以无监督地学习识别更好的对接姿势,而不需要依赖罕见的晶体结构。

4.3 可解释性分析
作者展示了他们通过检验模型学习特定分子的注意力分数分布,展示了模型的可解释性(图4)。该分子仅有7个对接姿势正确地将磺酰胺基与蛋白质活性位点内的锌离子产生协同作用。DEL-Dock模型识别了这种结合模式,并学习到更有利于排名这七个正确协调的位姿的注意力分数(图4)。模型排名前三位的位姿(图4a)具有非常相似的构象,每个位姿都表现出锌磺酰胺的协同作用,只在远离活性位点的末端苯环的方向上有所不同。其他显示锌磺酰胺协同作用的位姿(图4b-d)也被模型排名较高;最后,模型对不正确的锌磺酰胺协同作用的位姿(图4e)的排名较低。

结论
DEL是一种高通量筛选技术,可用于筛选与蛋白质亲和力高的小分子。作者提出了一种利用对接姿势来改进DEL模型的方法,该方法使用自注意机制选择好的对接姿势,并结合分子描述符信息来预测分子的结合亲和力。与仅使用对接构象或分子描述符信息的模型相比,该模型更加有效。然而,该方法也有一些限制,例如需要已知晶体结构和结合位点。未来的研究可以探索使用更具表现力的特征和无监督方法来改进我们的模型,并提高其在更广泛的蛋白质靶点上的适用性。
参考文献
Shmilovich K, Chen B, Karaletsos T, Sultan MM. DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries. J Chem Inf Model. 2023 May 8;63(9):2719-2727. doi: 10.1021/acs.jcim.2c01608. Epub 2023 Apr 20. PMID: 37079427.代码
https://github.com/insitro/insitroresearch
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn