欢迎光临散文网 会员登陆 & 注册

JCTC | 利用谱图卷积神经网络可实现酶变异体的超高通量筛选

2023-04-04 10:16 作者:AIDDPro  | 我要投稿

今天介绍的是近期格罗宁根大学发表在JCTC的一篇论文:《Super High-Throughput Screening of Enzyme Variants by Spectral Graph Convolutional Neural Networks》。这篇文章提出了一种使用图卷积神经网络(GCN)来预测酶复合物结合能的新方法。该方法可以在不到1毫秒的时间内评估一种酶变异体,从而可以在单个GPU上搜索数十亿个候选体。这一方法能够有效地加速酶变异体筛选的过程,为寻找具有所需底物范围的新酶变异体提供了新的思路。

研究背景

酶工程是通过改变构成酶的氨基酸序列来改进酶的性质。改进的性质通常包括催化活性、底物特异性、对映选择性或热稳定性等。目前酶工程的两种主要方法是定向进化有理设计,但这些方法需要大量的实验或计算工作。机器学习(ML)和深度学习(DL)是指导酶工程研究的第三种可能性。然而,机器学习在蛋白质工程中的应用受到数据集大小和分子表示的挑战,这些问题可以通过更高效的算法和图、序列等分子表示方法来解决。本研究提出了一种使用深度图卷积神经网络(GCN)来探索酶变异体适应度景观的方法,该方法是在传统的分子建模方法生成的大数据集上进行训练的,可以在不到24小时内评估数千万个变异体。该方法可以加速酶变异体筛选的过程,为寻找具有所需底物范围的新酶变异体提供了新的思路。本研究还以Vf-TA为例,介绍了如何使用GCN模型评分并预测酶变异体的适应性。

方法

2.1 训练数据集

随机生成了包含10,000个Vf-TA变异体的样本库作为训练数据。这些变异体是通过在预定的Nhot热点中随机突变,生成Lth-order突变体(L=1,单突变体;L=2,双突变体等),并将其中一个氨基酸从20种天然氨基酸的集合中随机选择来生成的。每个样本si都通过计算酶变异体与配体(图1A)之间的结合自由能来进行标注(yi)。

图1  A) 方法。在数据集中,酶变异体(si)的标签是变异体与配体在复合物中的结合自由能 (yi)。B) 查询变异体的图表示形式

2.2 数据标签

酶变异体的标签是使用变异体与配体形成复合物时的结合自由能标注的。结合自由能来自Rosetta计算(Rosetta Interface Energy)。

2.3 蛋白质的图表示形式

作者使用图表示法表示酶变异体,仅考虑与结合位点附近的蛋白质残基形成图形,保留了23个残基的节点,并允许这些残基的较小子集进行突变。节点矩阵X的特征化使用从AAindex中选取的F个特征进行。边属性E被定义为蛋白质残基之间的成对距离的倒数。仅从蛋白质序列评估新的变异体,大大降低了计算成本。

图2 A) Vf-TA结合位点的图形表示示例。B) 显示边权重矩阵的热图。C) 显示特征矩阵的热图

2.4 图卷积

输入图形𝓖通过一系列卷积层(图3),生成一个越来越抽象的输入信号表示。本研究中使用的图卷积层是由Bianchi等人提出的。

图3 谱图卷积


2.5 使用预训练的 LSTM 模型进行表征学习

为了提高GCN模型的准确性,使用了蛋白质序列嵌入来补充输入信号,嵌入通过预训练的双向LSTM模型生成。LSTM模型使用来自Pfam数据库的约1000万个蛋白质序列进行训练。

图4 表示学习方法

实验结果

3.1 经过训练的谱图卷积网络能够以高精度预测结合能

作者使用Rosetta生成和评分的Vf-TA酶-配体复合物突变库对神经网络进行训练。训练后的GCN模型不仅能够高精度预测未知变异体的结合能,而且比Rosetta快六个数量级。在单个GPU上,每个变异体评估大约需要1.36毫秒,但可以进行并行化。这种加速开辟了以低计算成本扫描数十亿的酶变异体的可能性。

图5 A)KDE散点图显示GCN预测的结合能(纵轴; ŷi)与Rosetta得分(横轴; yi)在测试数据集(n=2,000)中的相关性。B)直方图显示使用训练模型(n=160,000)获得的整个组合空间的结合能分布(黑线),与Rosetta提出的设计(未用于训练)的直方图重叠(蓝色条形) (n = 800)。C)当Rosetta负责从一组预定义的可变位置中提出新变异体时,生成的变异体将倾向于在组合和构象空间中靠近

然后,作者使用在𝒟1上训练的GCN模型对160,000个变异体进行了筛选(图4B),与在Rosetta中运行以提出新变异体时获得的变异体分布进行了比较。结果显示,GCN模型能够依靠“蛮力”方法提出和Rosetta一样好的变异体,但计算成本更低。此外,“蛮力”方法可以探索在组合或构象空间中不接近初始变异体的变异体。研究还发现,训练数据集中的突变体程度和突变体所包含的氨基酸种类对模型性能有重要影响。使用高阶突变体的训练数据集可以提高模型的预测准确性,而训练数据集中含有的氨基酸种类也会影响模型的泛化能力。此外,低阶突变体训练的模型无法很好地推广到高阶突变体,同时评估未见过的氨基酸时模型表现不佳。这强调了训练数据集的重要性以及在评估新的突变体时需要考虑氨基酸的多样性(表3)。

表1 GCN 和 LM-GCN 模型在不同数据集上的性能

3.2 预训练的双向LSTM模型生成向量嵌入可以提高突变预测的准确性

使用预训练的LSTM模GCN模型提高突变预测的准确性,LM-GCN模型的预测性能比仅使用GCN模型更好。

3.3 在蛋白质工程中的适用性

该方法在蛋白质工程的应用存在三个限制:1)生成训练数据集成本较高,但使用GPU训练模型时间较短,评估新突变体速度快;2)如果训练数据集中不存在优秀的突变体,模型无法在优秀得分区域进行外推,但模型仅使用坏的突变体训练时仍能给出好的突变体最佳得分;3)如果突变体明显改变蛋白质主链构象,可能会出现困难,但在度为1-8的突变体中主链变化不明显,而且边属性对预测不是必要的。虽然存在限制,但本研究的重要性在于,一个简单算法能够学习评估新的突变体组合所需的复杂协同关系,具有重要的应用价值。

讨论

作者认为使用神经网络可以学习评估突变体的复杂协同关系,加速蛋白质-配体复合物结合能的预测,实现超高通量筛选,提高突变体筛选的效率。此外,利用预训练的神经网络和特征注入技术来快速预测突变体结合能。然而,该方法的应用情况也是有限制的,因为Rosetta生成的结合能并不完美,发现的变体可能在湿实验中并不起作用。该计算策略可以减少探索组合空间所需的实验工作量,本研究还表明使用神经网络解决组合库任务是有潜力的。

结论

作者提出了一种深度学习策略,利用神经网络的高组合能力,快速学习突变体的组合模式,实现酶变体与所需配体的结合能的预测。经过微小数据集训练后,该方法实现了高准确度。使用GCN模块在突变热点数量较少的数据集中表现出很高的准确度,但在热点数量较多的数据集中准确度会降低。为了提高预测能力,本研究提出了LM-GCN模块,它能注入预训练LM模块生成的特征向量。本研究展示了神经网络在预测酶变体结合能方面的潜力,可以通过少量数据集进行训练来实现高准确度,提高了突变体筛选的效率

参考文献Ramírez-Palacios C, Marrink SJ. Super High-Throughput Screening of Enzyme Variants by Spectral Graph Convolutional Neural Networks. J Chem Theory Comput. 2023 Mar 24. doi: 10.1021/acs.jctc.2c01227.代码链接

https://github.com/crp-mol/super-HTS

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


JCTC | 利用谱图卷积神经网络可实现酶变异体的超高通量筛选的评论 (共 条)

分享到微博请遵守国家法律