DiffPack: 利用扭转角扩散模型进行蛋白质侧链Packing
大家好,今天给大家分享一篇预印版文章《DiffPack: A Torsional Diffusion Model for Autoregressive Protein Side-Chain Packing》
简介
蛋白质在执行生物功能方面发挥着关键作用;蛋白的3D结构对于确定其功能至关重要。在给定了蛋白主链构象的基础上准确预测蛋白质侧链的构象对于应用来说很重要,例如:蛋白质结构预测、设计和蛋白质-蛋白质相互作用。
传统方法计算量大且精度有限,而现有的机器学习方法将问题视为回归任务而忽略了恒定的共价键长度和角度所施加的限制。在在这项工作中,作者们提出了DiffPack,一种学习侧链扭转角的联合分布的扩散模型,侧链唯一的自由度通过在扭转空间上进行扩散和降噪来进行训练和预测。为了避免同时从所有四个扭转角度的同时扰动带来的问题,作者提出自回归生成从 X1 到 X4 的四个扭转角并单独为每个扭转角训练扩散模型。
通过几个基准上评估该方法用于蛋白质侧链Packing表明作者的方法取得了最优的效果,同时模型大小也显著降低,此外,作者还展示了他们的的方法可以增强AlphaFold2模型在侧链预测方面的有效性。在这项研究中,作者不再通过在笛卡尔坐标系中预测原子级坐标的标准,而是通过引入DiffPack,一种扭转扩散模型模拟侧链上四个二面角的联合分布。通过在扭转空间中进行扰动和去噪,作者使用 SE(3) 不变网络来学习扭转角联合分布。这样就可以利用物理限制的键长来减少极大的搜索空间,从而捕获蛋白质侧链复杂的能量景观。尽管这样做体现了一定的有效性,但是,在四个扭转角上的直接进行联合扩散过程可能会导致累积空间冲突和坐标位移,这使得模型的去噪过程变得复杂化。为了解决这个问题,作者进一步提出了一种自回归扩散过程并训练单独的扩散模型来自回归方式生成从 X1 到 X4 的四个扭转角。训练期间,每扩散模型只需要对其相应的扭转角进行扰动和去噪,同时保留蛋白质上其他的部分结构不变来避免上述问题。最后,作者进一步引入了三种采样方案,以不断提高推理结果:多轮采样、退火温度采样、置信度模型,这些方法都带来了明显的效果。
模型架构

如图一所示,作者在这里提出的方法DiffPack利用了最近大火的扩散模型,同时在蛋白质侧链的四个扭转角单独定义了扩散过程并分别利用四个分数网络来从第一个扭转角到第四个扭转角进行自回归式的去噪来实现训练和推理。

如图2 所示,CA碳原子上连接的侧链具有最多从X1到X4个扭转角,对侧链的packing其实就是对这四个扭转角的联合分布进行精准预测。在给定了主链结构和蛋白序列的情况下,就是建模给定主链和蛋白序列的条件分布,即:

上式中,S表示蛋白质序列,Xbb 表示蛋白主链结构,Xsc 表示待预测的侧脸结构。
如上所述,作者为了减少学习联合分布的难度将四个角度分别利用四个分数网络来进行自回归式的建模,上面的式子就可以写成分离的条件概率的式子:

结果分析
表1,表2中分别列出来了在CASP13,CASP14上侧链packin任务中的常用指标,侧链角度MAE和ACC以ATOM RMSD指标。与先前的SOTA模型相比较,DiffPack模型具有明显的优势


同时,在表三中,作者还通过AlphaFold2 生成的蛋白主链最侧链进行补齐,发现会比原始的结果好,说明这个工具可以用来增强蛋白结构预测模型的结果。

在消融实验中(表4),作者对比了联合扩散四个扭转角和随机扩散任意一个扭转角的效果,以及文中提出的多个提高推理效果的方法,展示了这些技术的有效性。

案例展示
在图3中,作者可视化了几个推理的结果,与其他方法相比,文中的方法的精确度具有明显的提升。

总结
在这篇工作中,作者提出了一种新的方法DiffPack,该方法利用扭转空间中的扩散过程来模拟蛋白质侧链packing。与普通的联合扩散过程不同,DiffPack包含了一个自回归扩散过程,实证结果表明,与现有方法相比,作者提出的方法在预测蛋白质侧链构象方面具有一定的优越性。
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn