机器学习重塑分子力场开发【02】
01 简化力场开发:通过自动区分增强分子模拟的能力
在分子动力学(MD)模拟中使用自动微分(AD)来加速生物分子力场(FF)的开发。传统的力场开发涉及复杂的计算和导数计算,以便将模拟结果与实验数据进行比较。AD 通常用于数据科学,并得到 JAX 等工具的支持,可减轻手动导数计算的负担。


这样就能利用径向分布函数和折叠构象等可观测值敏捷构建 FF。实例包括使用无水合能进行 FF 拟合和参数化,以及创建端到端可微分 MD 模拟。AD 虽然效率高,但可能会因梯度相关问题而导致数值不稳定。在深度学习中,递归神经网络等技术被用来解决这些问题,而在 MD 模拟和 FF 开发中应用 AD 时,也需要考虑类似的问题。
02 利用数据科学方法管理的生物分子力场模型和不确定性
在生物分子力场(FF)开发过程中,由于采用了先进的优化技术,会出现多个参数集等效的情况。这种情况出现在与量子力学计算或实验数据拟合时,导致多个力场模型在再现所需的特性方面表现同样出色。例如,贝叶斯参数学习方法为粗粒度蛋白质疏水性尺度(HPS)模型生成了三个同样有效的参数集。

利用蛋白质-蛋白质相互作用的实验结果检验 M1-3 模型。实验(黑色)分子间 PRE 速率(SI 附录,表 S3)与 M1(蓝色)、M2(橙色)和 M3(绿色)模型对(A-C)FUS LCD 和(D 和 E)A2 LCD 使用最佳拟合相关时间 τc 计算的预测之间的比较。作为 τc 的函数。(H) 根据 M1-3 模型的双链模拟计算出的 FUS LCD(圆圈)和 A2 LCD(正方形)的第二病毒系数 B22。误差条是通过对 875 ns 的轨迹块计算出的 40 个 B22 值进行 1,000 次引导估计得出的 SEM。(I) 根据 M1-3 模型双链模拟中蛋白质-蛋白质相互作用能量估算的结合态概率。(J) 根据 M1-3 模型的双链模拟计算出的 FUS LCD(圆形)和 A2 LCD(方形)的解离常数 Kd。对于 pB 和 Kd,误差带为 10 次模拟重复的 SD。
机器学习模型(尤其是多层感知器(MLP))的参数空间广阔,这进一步促进了多种合格 FF 模型的产生。认识到这些 FF 模型的非确定性,有助于深入了解它们的应用。贝叶斯神经网络和委员会模型(committee models)等数据科学工具为处理计算模型中的不确定性提供了一种方法。这与 FF 的开发尤其相关,可以为各种应用估算不确定性。

Ceriotti 等人的研究引入了一个理论框架,用于估计从分子动力学(MD)模拟中获得的热力学性质的误差,同时考虑到 FF 模型的不确定性。这种方法采用委员会模型,通过集合平均特性传播不确定性,同时考虑每个 MD 帧的不确定性。他们展示了用 MLP 增强经典 FF 的好处,同时实现了准确性和泛化。这类似于机器学习中成熟的集合学习方法。
03 结论
过去十年间,数据科学,尤其是深度学习应用,对人类生活产生了深远影响。这些进步促进了用于训练和部署计算模型的各种技术的发展,这一变革对加强生物分子力场的开发具有重大意义。虽然进展显著,但在将这些技术扩展到大型复杂生物分子系统方面仍然存在挑战,这主要是由于需要对化学空间进行有效采样并建立长程相互作用模型。为应对这些挑战而正在进行的努力包括主动学习和使用大规模预训练模型等举措。尽管如此,明确的解决方案仍在开发中。人们期待着即将出现准确且可转移的多层感知器(MLP)或结合了蛋白质和核酸神经网络(NN)的混合模型。此外,除了本文回顾的方法外,其他数据科学技术也具有潜力。例如,持续学习可能会彻底改变力场可转移性的评估。处理标签噪声和不平衡数据集的策略可进一步增强力场模型的稳健优化。此外,数据科学和机器学习正在更广泛的背景下重塑生物分子系统建模和模拟。它们有助于识别集体变量以增强采样、生成构象组合,甚至加速动力学传播等任务。这种集体影响凸显了数据科学和机器学习在生物分子系统领域的变革性作用。参考资料:Wang W, Axelrod S, Gómez-Bombarelli R. Differentiable molecular simulations for control and learning[J]. arXiv preprint arXiv:2003.00868, 2020.Ding Y, Yu K, Huang J. Data science techniques in biomolecular force field development[J]. Current Opinion in Structural Biology, 2023, 78: 102502.Tesei G, Schulze T K, Crehuet R, et al. Accurate model of liquid–liquid phase behavior of intrinsically disordered proteins from optimization of single-chain properties[J]. Proceedings of the National Academy of Sciences, 2021, 118(44): e2111696118.
Imbalzano G, Zhuang Y, Kapil V, et al. Uncertainty estimation for molecular dynamics and sampling[J]. The Journal of Chemical Physics, 2021, 154(7).
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn