欢迎光临散文网 会员登陆 & 注册

生物分子力场开发中的数据科学技术【01】

2023-08-16 20:41 作者:AIDDPro  | 我要投稿

引言

力场(FF)是一种基于物理学的计算模型,用于描述分子系统中原子和分子之间的相互作用。它根据每个原子的位置和它们之间的相互作用来量化作用在每个原子上的力。这些相互作用包括键合项(如共价键、角和二面体)和非键合项(如范德华力和静电相互作用)。力场为模拟分子系统在各种条件下的行为和动力学提供了一个数学框架。

力场在分子建模和模拟中至关重要,尤其是在化学、生物和材料科学等领域。研究人员可以利用力场对分子和分子系统的行为进行虚拟研究,从而对分子和分子系统的性质、相互作用和行为提出有价值的见解,而这些见解可能难以通过实验进行研究,或者实验成本高昂。力场可用于各种计算技术,如分子动力学模拟、量子力学/分子力学(QM/MM)计算等。

图 1. 数据科学技术如何改变经验 FF 的发展

图 1 强调了数据库的重要性,主动学习等新技术正在取代刚性扫描来生成拟合数据。贝叶斯推理和随机梯度下降等新优化方法也被引入。经典的 FF 模型(左图)是以文本文件的形式发布的,其中包含不同原子类型的参数,而在数据科学中,训练有素的模型(右图)通常是作为一个整体提供的,原子类型可以被基于拓扑连接性的连续表示所取代。由于分子系统的复杂性和准确描述其相互作用的挑战性,传统的力场开发往往是经验性的,依赖于参数化的试错方法。然而,随着数据科学技术的出现,力场开发有可能变得更加数据驱动,减少经验主义。通过利用数据科学的概念,如数据标记、特征提取和模型拟合,研究人员旨在创建更准确、更通用、可在不同分子场景中转移的力场。

总之,力场是描述分子系统中原子和分子之间相互作用的计算模型。它对分子模拟至关重要,在理解分子和分子系统的行为方面发挥着核心作用。将数据科学技术整合到力场开发中,有可能提高力场的准确性和可靠性,使其成为更有效的科学研究工具。

从提供 FF 参数到开放数据集访问

在数据科学领域,数据库作为基本的基础设施发挥着至关重要的作用。例如,用于蛋白质结构预测的深度学习模型 AlphaFold 的成功就有赖于蛋白质数据库(PDB)所收集的高质量蛋白质结构数据。同样,在力场(FF)的开发过程中,数据的可用性也至关重要。传统的力场开发通常使用量子力学(QM)计算进行拟合,但用于这种目的的数据集并不总是可以公开访问的。不过,现在的趋势是更加重视可重复性和数据的可用性,从而建立了用于 FF 开发的高质量量子力学数据库。

生成具有代表性的非平衡构象对质谱数据库来说是一项挑战,因为自由基开发需要平衡结构以外的信息。一些质谱数据库已开始提供非平衡结构和势能扫描数据。例如,NCIAtlas 数据库提供了关键相互作用距离的 10 点扫描,DEShaw Research 发布了一个大型数据集,其中包含 CCSD(T)/CBS 水平的二聚复合物相互作用能。FF 验证和完善的另一个方面涉及凝聚相测量的实验数据,如核磁共振标量和偶极耦合以及分子液体特性。这些实验数据集有助于验证和改进生物分子 FF。例如,蛋白质组合数据库(PED)包含了内在无序蛋白质(IDPs)的信息,并注释了核磁共振、SAXS 或 FRET 数据的实验测量结果。

高质量的数据库提供了训练和验证所需的数据,最终提高了这些模型的准确性和可靠性。数据可用性的提高和数据库的标准化进一步促进了数据科学技术与模型开发和完善的结合。

原子类型:从离散类型到连续嵌入

力场参数是用于描述分子模拟中原子和分子间相互作用的计算模型的重要组成部分。这些参数可分为两类:

  1. 非键参数 这些参数描述非键相互作用,包括部分电荷和范德华(VdW)参数。部分电荷决定了原子内部的电荷分布,影响静电相互作用。范德华(VdW)参数描述原子间的大小和吸引力/反冲力相互作用。

  2. 成键相互作用参数: 这些参数根据分子片段中原子的拓扑连接性来描述成键相互作用。这些相互作用包括共价键、角和二面体。

在特定模拟系统中使用力场模型时,首先要进行原子分型,即根据化学环境为每个原子分配一个原子类型。对于小分子配体来说,原子分型尤其具有挑战性,这也提出了为生物分子力场引入新原子类型的问题。原子分型涉及将原子的亚结构映射到力场参数。这可以通过丰富的化学环境定义文本格式或自然捕捉原子拓扑环境的图神经网络来实现。拓扑自适应图卷积网络(TAGCN)等技术已被提出用于原子自动分型。拓扑自适应图卷积网络(TAGCN)的输出是预定义原子类型的概率密度分布,该网络经过训练可重现基于规则的程序所分配的原子类型。一旦原子类型确定,机器学习就能帮助参数分配。

图 2. 示例说明在以下情况下如何通过原子坐标确定势能:(a) 经典的 FF,(b) 基于核的 MLP,(c) 基于 NN 的 MLP(利用原子中心对称函数作为环境描述符),(d) 具有从嵌入网络学习到的描述符的 DP 模型,以及 (e) 具有通过 MPNN 学习到的描述符的 MLP。

无FF 中的函数形式

经典力场(FF)历来采用参数化的数学函数来模拟分子间的相互作用。50 多年来,这些函数形式基本保持一致,有效地逼近了原子和分子之间复杂的相互作用。为了解决维数诅咒问题,FF 采用 "分而治之 "的方法,将总能量分解为各种相互作用项。然而,数据科学的最新理论进展表明,机器学习,特别是基于神经网络的方法,可以更有效地逼近高维函数,从而克服这一局限。

机器学习势能(MLP)是作为传统 FF 的替代方法而开发的,可分为基于核的方法和基于神经网络的方法。MLP 的目的是将原子坐标直接映射到势能和力上,从而无需根据经验设计函数形式。MLP 的准确性取决于其能否保持物理对称性,以及能否在不同大小的系统中进行尺寸扩展和转移。构建 MLP 有多种方法。Behler 和 Parrinello 提出了一种方法,即总势能是神经网络利用人工制作的输入特征预测的原子能量之和。Smith 等人对这种方法进行了扩展,加入了三体相互作用特征,从而产生了 ANI 系列等模型。其他策略包括使用嵌入式网络来学习输入的原子特征,如 Deep Potential (DP) 和 SchNet 模型。MLP 带来了一些挑战,例如在有物理意义的相互作用项之间缺乏明确的分离,以及需要大量的训练数据。主动学习通常用于应对这些挑战,即同时训练多个 MLP 模型,并根据其预测结果的差异来选择训练数据。主动学习还可以与构象和化学空间采样技术相结合。MLP 可提供与量子力学相媲美的高精度,但计算要求更高。长程相互作用和异质系统带来了限制。混合 MLP/MM 模型的出现,将 MLP 与经典 FF 结合起来,用于模拟生物分子系统。这些混合模型能够将量子力学效应与经典 MM 模拟相结合,从而提高其准确性和适用性。

参考资料:Ding Y, Yu K, Huang J. Data science techniques in biomolecular force field development[J]. Current Opinion in Structural Biology, 2023, 78: 102502.

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


生物分子力场开发中的数据科学技术【01】的评论 (共 条)

分享到微博请遵守国家法律