蛋白质领域的Chatgpt-CLEAN算法注释蛋白质功能
蛋白质功能注释
蛋白质功能注释(Enzyme function prediction)是使用计算方法(例如机器学习算法)根据蛋白质的氨基酸序列来预测蛋白质的功能,特别是其催化功能的过程。酶功能的实验表征可能既费时又昂贵,并且有许多蛋白质的功能未知或表征不佳。蛋白质功能注释有助于识别新的酶及其功能,在基因组学、合成生物学和生物催化等领域具有重要应用。
蛋白质功能注释目前面临许多困难,比如,大部分现有的计算工具不能准确地预测研究较少的蛋白质的功能,或那些以前没有定性的或具有多种活性的蛋白质。此外,科学家已经通过DNA测序技术发现了大量蛋白质序列,但是可用于审查和注释这些序列的研究人员却数量有限。还有一点是训练数据集数据的不足或者不平衡,这可能会导致ML模型的准确性和覆盖率低。
CLEAN算法
CLEAN算法使用对比学习框架,学习酶的嵌入空间,其中欧几里得距离反映功能相似性。目标是基于氨基酸序列预测酶的酶学委员会(Enzyme Commission,EC)EC编号。在训练过程中,训练数据集中的每个参考序列被抽样为具有相同EC编号(正样本)和具有不同EC编号(负样本)的序列。具有与锚点欧几里得距离较小的嵌入的负样本被优先考虑,以提供具有挑战性的负样本给模型。来自语言模型ESM-1b的蛋白质表征被用作前馈神经网络的输入,其输出层生成输入蛋白的经过精细处理、具有功能感知的嵌入。学习目标是对比损失函数,最小化锚点和正样本之间的距离,同时最大化锚点和负样本之间的距离。在进行预测时,计算查询序列与所有EC编号簇中心之间的成对距离,然后预测与查询序列显著接近的EC编号簇的EC编号作为输入蛋白的EC编号。开发了两种EC编号选择方法来从输出排名中预测可信的EC编号:一种是greedy方法,一种是基于P值的方法。在训练-测试分离上,CLEAN相对于不使用对比学习的ESM-1b的基准方法,以实现其高性能。

结果
该研究通过将CLEAN与六种最先进的工具进行比较,并使用两个独立的数据集来研究CLEAN的性能。CLEAN在两个数据集上的表现均优于其他工具,包括ProteInfer和DeepEC,并获得了最高的F1分数和多标签准确度指标。该研究表明,CLEAN在预测新发现的蛋白质的功能方面更加精确和可靠,尤其是那些没有已知酶功能的蛋白质。

CLEAN的模型表现更好的原因
CLEAN能够更好地处理EC编号的不平衡性,这些EC编号的酶样本数量存在很大差异,有些EC编号拥有成千上万的酶样本,而有些EC编号只有很少(少于五个)的酶样本。
CLEAN能够有效地预测新发现蛋白质的功能,尤其是那些没有已知酶功能的蛋白质。
CLEAN利用对比学习的Supcon-Hard loss损失函数,能够同时利用正样本和负样本进行学习,从而提高模型的准确性。CLEAN还能够量化预测结果的置信度,并根据置信度进行量化解释和避免过度预测。
CLEAN能够更好地预测未研究的EC编号,表现出更高的准确性。
CLEAN可以极大地促进功能基因组学、酶学、酶工程、合成生物学、代谢工程和逆向生物合成的研究。此外,CLEAN所使用的通用语言模型表示可以适应其他不限于酶活性的预测任务。CLEAN很容易使用,既可以作为一种独立工具以高通量方式使用,也可以作为软件组件集成到其他计算平台中。因此,生物技术科学家可以通过使用CLEAN来预测查询酶的催化功能并扩展生物信息学工具箱。CLEAN网页版的预测工具也已上线:https://moleculemaker.org/alphasynthesis/
参考资料:
Yu T, Cui H, Li J C, et al. Enzyme function prediction using contrastive learning[J]. Science, 2023, 379(6639): 1358-1363.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn