欢迎光临散文网 会员登陆 & 注册

【花师小哲】当代炼金术(神经网络)前沿(9)——AI+多肽预测

2023-01-15 10:20 作者:花师小哲-中二  | 我要投稿

今天来分析一篇论文:

这篇论文是我实验室的师兄做的,发在Nature的大子刊上。这项工作真的挺不容易的,做了四年多,可以说非常磨炼人了。简要来说,本篇工作就是AI+生物/化学/医学的工作。当然,这个系列的专栏还是主要介绍相关工作的背景及相关知识,对内容解读不会太深入(主要是我对这个领域也没有那么熟)

1.AI+X

AI+X应该也不是什么新鲜事了,和“互联网+”差不多,就是要把AI技术和其他学科结合起来,这其实也不是太新鲜的事情,很多计算机技术早就落地到各行各业了,但是结合的仍然还不够深。

本篇文章的主要目的AI预测多肽,简单来说就是找到一些多肽序列,使得这些多肽可能具有某些性质(目的就是找的尽量准确)。


2.AI+生物/化学/医学

因为研究蛋白质、多肽、DNA这些东西既涉及到化学又涉及到生物又涉及到医学,所以这里就称为“AI+生物/化学/医学”,之后就看心情用哪个了。

在这些领域的数据往往呈现一些独特的特点:

(1)一般是列多行少。

“列多”这个很好理解,你去医院做检查,往往检查项目很多,包括血液测试就有大量的数据。有些医学领域的表格有上万列都是很正常的。这就是“列多”,或者说,特征多。

“行少”指的是样本数少。特别是针对一些罕见病,我们可能只有少数几条病例。常见病就不多提,只要有充足的样本做机器学习还是比价方便的,“列多行少”的数据才是研究的重点

(2)搜索空间大,规律不明显。

这个也不难理解,我们考虑一条多肽序列,每个位置都有几十种候选氨基酸(好像是常见的有二十几种来着,生物好久没看有点忘记),所以每多一个多肽,候选多肽数量就会指数提升。要从这些候选对象中找到我们需要的对象真的是大海捞针。

“规律不明显”指的是我们对蛋白质、多肽等的研究还不够深入,对于大部分蛋白质、多肽我们仍然不清楚其起作用的具体原理,导致我们很难用理论的方式解释这些物质起作用的机理,更不要说简单地创造它们了

(3)与自然语言处理的不同。

多肽序列和我们的语言看似有很多相似的地方但也有很多不同的地方。我们的语言毕竟是约定俗称的,有较为“明确”的上下文意义,但多肽序列不见得有这些特性,或者说,它“不讲理”。


3.怎么开展研究

对于DNA、多肽、蛋白质是有不同的一些特点的:

(1)DNA/RNA相对比较简单些,毕竟一共就那么几种(脱氧)核糖核酸

(2)多肽稍微复杂一些,毕竟氨基酸的种类就丰富多了,整个搜索空间就急剧增大

(3)蛋白质就更不要说了,和多肽完全不是一个量级的,不仅要考虑序列,还要考虑整体能量(能量方法也是传统蛋白质预测常用的方法),还要考虑空间结构(怎样建模空间结构也是个难点,例如建模蛋白质之间的角度等)

一种方法就是要用好神经网络了,包括常用的类BERT方法,这里不展开。

4.简要介绍论文

论文其实是做了一个比较复杂的系统,所以理论上并没有太出彩的新方法。但整体流程确实比较复杂,如图:

所以不细讲,有兴趣的可以去看原文或者这篇推送:

5.结语

其实我对现在的实验室还是挺满意的,虽然导师一直在push,但是由于我们实验室研究方向比较杂(简而言之,AI的很多边边角角都在做),确实让我了解到很多新东西。这之前其实我一直对AI+医学不是很感兴趣,不过听过几次组会后还是很有感触的。


【花师小哲】当代炼金术(神经网络)前沿(9)——AI+多肽预测的评论 (共 条)

分享到微博请遵守国家法律