Foldseek——蛋白结构相似性搜寻
Nature biotechnology 上发表题为
“Fast and accurate protein structure search with Foldseek”
的文章,构建了一个与blast搜索序列同源性类似的、可以快速搜索相似蛋白结构的搜索工具Foldseek。
伴随着AlphaFold等工具的产生和逐步完善,蛋白质结构的数据库也逐渐完善,但是搜索这些数据库仍存在瓶颈。对蛋白结构进行相似性的比对,Foldseek相较于Dali、TM-align 和 CE等工具,速度有了显著的提升,打破了基于结构的分析的最后一块壁垒。
最广泛使用的蛋白质注释和分析方法是基于序列相似性搜索,例如:interproscan, eggNoG, 及blastp等。尽管基于序列同源性的蛋白功能注释已经非常完善,但许多蛋白质仍然无法被注释,且从序列检测蛋白的进化关系仍然具有挑战性,而各种蛋白数据库的完善或可以弥补序列注释的缺陷。
随着蛋白结构预测工具的日趋完善,兼具序列和结构的分析将逐步取代基于序列的分析。该文章提供了一个蛋白结构相似性搜索的网页版工具,网址为: https://search.foldseek.com ,包括 AlphaFoldDB(版本 4:Proteomes 和 Swiss-Prot)、AlphaFoldDB(版本 4)和以 50% 序列同一性聚类的CATH 25 、ESM Atlas-HQ 和蛋白质数据库 (PDB)。此外,该工具也可以本地运行,其开源网址为: https://github.com/steineggerlab/foldseek 。利用该网页可以通过AlphaFold预测的蛋白结构(pdb文件)查找结构相似的蛋白,从而对蛋白的进化关系和功能进行注释。

参考文献:
van Kempen, M., Kim, S.S., Tumescheit, C. et al. Fast and accurate protein structure search with Foldseek. Nat Biotechnol (2023). https://doi.org/10.1038/s41587-023-01773-0