BMC Biology | 基于序列理化模式和分布式表示信息的蛋白质溶解度预测
今天给大家讲一篇2023年1月在BMC Biology上发表的一篇关于预测蛋白溶解度的文章,作者提出了一种名为DeepSoluE的模型用于预测蛋白质溶解度。该模型将物理化学特征和氨基酸上下文信息结合在一起以发现蛋白序列的功能,并使用遗传算法来选择最佳特征子集,最后用LSTM网络提取特征信息并进行分类任务。研究结果表明,所提出的算法在蛋白质溶解度预测方面表现优于现有方法,可以用于预筛选潜在的可溶性靶点,以降低湿实验研究的成本。

蛋白溶解度预测研究背景
蛋白质的溶解度是判断其在工业应用和基础研究中是否有功能价值的关键因素。然而,蛋白质的聚集现象仍然是蛋白质科学和工业中不可避免的问题。目前,仅有大约四分之一的蛋白质能够以可溶性形式成功表达。虽然已经开发出许多溶解度预测模型,但随着可用的蛋白质序列数量的增加,这些模型的性能仍然有限。因此,研发新颖且高度准确的预测模型,以便通过对高溶解性蛋白质的优先排序来降低实验成本是很有必要的。
DeepSoluE模型介绍
2.1 DeepSoluE设计流程
在本文中,图1A所示,采用两组特征编码算法来表示蛋白质序列,其一是物理化学特征,其二是基于单词嵌入的特征。物理特征包括氨基酸组成(AAC)、两亲性假氨基酸组成(APAAC)、二肽组成(DPC)、组成(CTDC)和准序列顺序(QSOrder)。AAC计算了蛋白质序列中所有20个氨基酸的频率,DPC计算所有二肽的频率,CTDC计算了三种残基对的过渡频率。QSOrder是基于Schneider Wrede理化距离矩阵来对序列顺序进行编码。对于嵌入特征而言,先将含有n个氨基酸的蛋白质序列视为一个句子,再将序列以移动大小为k的窗口进行滑动。至此,每个单词都被嵌入到一个固定的n维向量中,并利用word2vec框架根据给定的焦点词来预测上下文。然后将优化后的物理化学特征和词嵌入特征拼接成一个向量,然后输入到LSTM网络中以提取潜在的特征表示,并捕获特征之间的依赖性。最后一个LSTM单元的输出是两个全连接层的输入。对于二分类问题,只需要考虑两个类别,因此最后SoftMax函数输出的结果只包含两个结果(正例或者负例)。(图1B)

实验结果
3.1 特征选择
如图2所示,为了减少计算复杂度并避免模型产生过拟合,作者采用遗传算法从组合特征中选择最优特征子集。为了评估遗传算法在信息特征识别方面的有效性,将其与其他四种特征选择策略进行比较(随机森林、梯度提升、F-score以及MRMD)。对于每个特征都采用顺序前向搜索(SFS)方法选择最优特征子集。最后,保留导致AUC值最高的模型的特征子集作为最优特征子集。在第117轮时AUC的值达到0.6949,因此保留在第117轮次的基因的5个理化描述符作为最优特征子集,可以看出基于遗传算法的特征选择策略优于其他四种方法。

3.2 基准方法比较
如图3所示,作者提出集成学习的方法,即采用十折交叉验证并对十个模型进行投票的方法来有效的改进模型的预测性能。此外,为了进一步比较DeepSoluE的有效性,还与主流的机器学习方法进行了比较。文章选用两个指标的差值,即敏感性(Sensitivity,真正类(TP)预测占实际正样本(TP+FN)的比例)和特异性(Specificity,即真负类(TN)预测占实际负样本(TN+FP)的比例)。DeepSoluE模型中SN和SP的差值是最低的。因此DeepSoluE模型在敏感性和特异性方面均优于传统分类器,并且具有更好的鲁棒性,并在分类指标AUC上具有显著优势。

3.3 特征贡献
作者用SHapley加性解释(SHAP)值来分析特征贡献。图4A描述了蛋白质的物理化学性质对其溶解度起着至关重要的作用。其中,蛋白质的等电点可以影响其在不同 pH 值下的溶解度,而肉汁和芳香性则与蛋白质的氨基酸成分有关,会直接影响其水溶性和挥发性。此外,柔韧性和不稳定性指数也是影响蛋白质折叠和稳定性的重要因素。分子量和分数电荷也会影响蛋白质的溶解度和稳定性,因为它们决定了蛋白质的空间结构和电荷状态,是影响蛋白质溶解度的关键因素。图4B显示了前20个最重要特征与模型输出之间的关系。其中,等电点的高值对蛋白质溶液具有积极影响,而低值则具有消极影响。此外,在另外12个特征中,也观察到了类似的特征值影响。然而,在其他7个特征中,作者观察到了相反的变化趋势。因此根据SHAP分析可以帮助了解特定特征值的影响以及如何优化蛋白质溶液的性质。

结论
作者研发了一种名为DeepSolue的深度学习预测模型用于准确预测大肠杆菌中的蛋白质溶解度。此预测模型由物理化学模式和语义信息进行组合作为序列的表征,实现了更加平衡的性能,相较于现有的溶解度预测模型有竞争性的优势。此外,还采用了SHAP值来解释和研究特征对模型预测及其相互作用效果的影响。
然而,虽然所提出的模型可以提高性能,但当前可用的预测变量的准确性仍未达到60%,因此,仍需要使用算法模型并结合更多信息来进一步改进它。总之,DeepSolue的开发为蛋白质溶解度预测领域带来了新的突破,同时也展示了深度学习在生物学研究中的广泛应用。
参考文献
Wang C, Zhang Y, Han S. Its2vec: fungal species identification using sequence embedding and random forest classification. Biomed Res Int. 2020;2020:article ID: 2468789.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn