欢迎光临散文网 会员登陆 & 注册

如何得到PAM打分矩阵——PAM打分矩阵原理与Dayhoff模型【生物信息学】

2023-07-15 17:21 作者:游子桀  | 我要投稿

如何的到PAM打分矩阵?PAM打分矩阵原理与Dayhoff模型


B站输不了公式,请移步知乎!!!

B站输不了公式,请移步知乎!!!

B站输不了公式,请移步知乎!!!

知乎文章链接:https://zhuanlan.zhihu.com/p/643775292

B站的版本缺少一些必要的公式

知乎:不学无术浏览者

B站:游子桀

2023年7月15日17:12:24发布于知乎

2023年7月15日17:16:08发表于B站

引言 Introduction

如果两个蛋白质或DNA的序列相似性较高,这一方面说明这两个蛋白质或DNA的同源的可能性较高,一方面说明二者拥有相同/相似功能的可能性较高。

双序列比对正是用于比较两蛋白质相似性的工具

双序列比对中又包含许多方法:

1.全局双序列比对算法

2.局部双序列比对算法

3.BLAST等

虽然名称不同,但三者的思路存在相似之处,总而言之可以简要分为

1.比对(Alignment)

2.打分(Scoring)

所谓比对,就是将两条蛋白质/DNA序列按序排开,依次比较互相的氨基酸残基/核苷酸的过程。

同时,比对过程中,不一定每一个氨基酸残疾/核苷酸都能找到相同的氨基酸残基/核苷酸与之匹配,同时,性质相似氨基酸的氨基酸之间的匹配又比性质有较大差异氨基酸之间的匹配对蛋白质性质的影响要小。这就需要对氨基酸之间的匹配进行打分,相同氨基酸残基的匹配自然能拿到最高分,不同氨基酸之间,性质相似的氨基酸拿到的分数又要比性质相差较大的氨基酸拿到的分数要高。同时,我们可以使用这个分数,衡量两蛋白质的相似性。

Margaret Dayhoff 提供了一个打分方法——PAM打分矩阵,而得出这个矩阵的模型,也被称作Dayhoff模型。

接下来,我们将介绍如何基于Dayhoff模型的到PAM打分矩阵。

Dayhoff模型 Dayhoff Model

第一步:可接受点突变(PAM)

如前所述,同一位置上性质相似的氨基酸之间的改变,比起在这个位置上发生性质截然不同的氨基酸的改变,引起整个蛋白质的功能的改变,概率上会更小,程度上通常也更小。而一个蛋白质如果能在自然界中保持存在,就需要让能产生这个蛋白质的种群能够存续。也就是说,如果蛋白质某个位点的氨基酸的改变使这个蛋白质功能发生较大改变,使这个蛋白质原本应该在生物体内发挥的功能不能实现,导致发生这个改变的生物不能存货,从而不能将发生改变保留在种群中,那么这个蛋白质也就不能继续保留到今天。相反的,氨基酸不发生改变或氨基酸变为性质相似的氨基酸,引起的蛋白质的功能的改变较小,发生改变后的蛋白质仍然能发挥该蛋白质原本应该发挥的功能,发生改变的生物能够通过繁衍下一代将该改变保留在种群中,从而使得发生改变的蛋白质留存到今天。

而又因为氨基酸变为性质相似的改变(保守型替换)引起的蛋白质的改变较小(也就是前后的蛋白质相似性高),蛋白质保留下来的概率更高。因此,我们可以通过观察目前自然界存在的同源蛋白质上,氨基酸A改变为另一种氨基酸B的频率,来反向推断氨基酸A与氨基酸B之间的相似性。

Dayhoff基于这点假设:提出了可接受点突变(Accepted Point Mutation,PAM)这一定义。PAM要符合以下两点要求:

一、基因发生突变,从而使得DNA编码的氨基酸发生改变。

二、该突变被整个种群所接受,成为种群该蛋白质的主要形式。(这个定义或许令人费解,意思其实就是这个突变不会因自然选择而被淘汰,换句话说,就是被“接受”了)

氨基酸突变的统计

Dayhoff及其同事首先考研究了71组进化高度相关的蛋白质中的1572种变化。统计了其中氨基酸的突变数据。

具体如何统计的?

如下:

结合我们之前所说的,在蛋白质的某位点的氨基酸发生突变后,新的蛋白质从中产生,为了得到正确的符合实际的氨基酸突变频率,我们需要从同源蛋白质中氨基酸不同的区域对氨基酸突变进行统计,Dayhoff所选用的蛋白质同一颗树内的蛋白质氨基酸一致性有85

以图1为例,对同源序列ACGH与DBGH进行比对,这两条的祖先序列是XYGH,其中X是A或D,Y是C或G,因为我们不能判断在X(Y)位点究竟是A(C)还是D(G)发生了突变,也就是说祖先序列可以是ACGH,ABGH,DCGH,DBGH中的任意一条,但是没有关系,因为无论哪条是祖先序列,他们所包含的氨基酸突变信息是一致,在这个例子中,氨基酸突变信息是,B与C互相突变,A与D互相突变。

但是还有一个问题,在这幅图中,左边的祖先序列有ACGH,ABGH,DCGH,DBGH四种可能性,右边的祖先序列有ADIJ,ABIJ,CDIJ,CBIJ四种可能性,如何比对这两个祖先序列的氨基酸突变呢?在这里,我们只对之前未发生突变位点进行比对。,在本例子中,就是ABGH与ABIJ的比较,得到I-G互相突变,H-J互相突变的数据。值得一提的是,存在ACGH或者DBGH就是最久远祖先序列的可能性,但同时我们又不能确定他就是,所以,这里选择保守的计数策略,也就是只记录在之前未发生突变位点的比对。

最终得到的数据如图2所示,其中红色标注的项目表示该类氨基酸突变较少,绿色标注项目表示该类氨基酸突变较多。

PS:图2使用的数据是Dayhoff在1978年的论文中提出的,目前有了更多的数据,发现了Dayhoff当年没有发现的氨基酸突变情况。

氨基酸的相对突变率

Dayhoff与其同事还计算了不同氨基酸的相对突变率。

具体方法如图三:

有两条序列ADA与ADB进行比对,其中A出现三次,突变一次,那么在这里A的突变率就是1/3,而B得相对突变率为1,D为0. 对于实验中涉及到得所有的蛋白质,计算原理也是一样的,突变率=(突变的该氨基酸)/(所有该氨基酸)=(突变的氨基酸)/(该氨基酸在肽链中出现的概率*肽链长度),

其中: 是突变的该氨基酸的数目, 是所有该氨基酸的数目。

我们将突变率Mutablity记为 .

因此,我们得到了某氨基酸的突变率。

接下来我们考虑另一个问题,在已经存在一些突变的情况下,出现某氨基酸的突变的条件概率是?

根据贝叶斯公式:

其中 是氨基酸j在肽链中出现的频率;R是一个校正因子,其作用只是为了放大相对突变率,使人们可以通过相对突变率( 后记为 )直观的看出不同氨基酸突变概率的大小关系

所以,为了计算氨基酸的相对突变率,还需要知道氨基酸在肽链中出现的频率,这个相当容易统计,这里不做赘述。(统计结果如图4)

编辑切换为居中

以此方法进行统计,Dayhoff得到了20种氨基酸的相对突变率(图五,其中丙氨酸的相对突变率通过改变调节因子,被人为设定为100)。

编辑切换为居中

进化距离为1PAM的突变概率矩阵

“进化距离为1PAM”是什么意思呢?

意思就是一条序列1%的氨基酸的氨基酸发生突变,这一过程发生1次。

后面将要提到的PAM1矩阵,意思就是一条序列1%的氨基酸的氨基酸发生突变,这一过程发生1次后,氨基酸的变化情况。

PAM250矩阵则是一条序列1%的氨基酸的氨基酸发生突变,这一过程发生250次后,氨基酸的变化情况。

那么PAM1矩阵是如何得出的呢?

计算方法如下: 如果一条序列长度为L的蛋白质有1%的氨基酸发生突变,这1%发生突变的氨基酸中有 是也是一个校正因子,他和我们先前提到的校正因子R互为倒数)属于氨基酸j,氨基酸j中又有 突变为氨基酸i。

所以在突变的序列中,氨基酸j突变为氨基酸i的概率 为:

但这些都是氨基酸j突变为其他氨基酸i的概率,在突变过程中,一条肽链仍然有99%的氨基酸残基保持不变,所以需要计算氨基酸保持不变的概率 ,计算方法是:

计算,得出所有数据,作图,得到PAM1矩阵(图6):

但是如你所见,PAM1矩阵中的数据存在大于1(作为概率来说,这是不合理的),这是因为这是经过调整的PAM1矩阵,矩阵中每个数字均乘以了一个放大因子(在这里是100),要得到原始的PAM1矩阵,必须去掉放大因子(也就是除以100)。

PAM1矩阵

PAM250以及其他PAM矩阵的计算

如前所述,PAM250矩阵则是一条序列1%的氨基酸的氨基酸发生突变,这一过程发生250次后,氨基酸的变化情况。

下面,我们举例说明如何得到PAM250矩阵。

对于一条蛋白质序列,我们知道其氨基酸组成,设其组成矩阵 (ProteinMatrix)为

其中, 表示氨基酸i在肽链中出现的频率,当1%的氨基酸的氨基酸发生突变,这一过程发生第一次时,其氨基酸变化情况实际上符合PAM1矩阵描述的变化,

所以,经过一次1%的氨基酸发生改变的蛋白质的氨基酸组成矩阵

得到的蛋白质继续进行1%的氨基酸发生突变这一过程,得到 :

以此类推,进行250次此过程的蛋白质 :

同时PAM250意思也是蛋白进行250次此情况的变化,所以:

PAM250矩阵,就是PAM1矩阵自乘250次。

其他PAMn矩阵,也是PAM1矩阵自称n次。

PAM250矩阵

从突变概率矩阵到相关优势值矩阵

首先考虑一个问题,一个蛋白质通过可接受点突变形成的同源蛋白质,与一群氨基酸(氨基酸的比例符合图4所说的氨基酸在肽链中出现的概率)随机组合形成的蛋白质,这两种蛋白质之间,氨基酸序列,可能存一致性,这是由于氨基酸的随机排列,为了减小随机性对蛋白质相似性判断与打分的影响,Dayhoff引入了相关优势值矩阵,这是将概率矩阵转化为打分矩阵的重要一步。

在本文中所说的优势值,定义相当简单,优势值 :

优势值描述了在同源序列中氨基酸j变为氨基酸i的指向性,R越偏离1,表明氨基酸j变为氨基酸i的倾向性的强度,R=1,则表明氨基酸j变为氨基酸i接近与随机。

如此,可以从PAM矩阵得到一个相关优势值矩阵(暂无图)

对数优势值打分矩阵

得到相关优势值矩阵后,所剩的就是将其转化为打分矩阵,方法也很简单:

即对优势值矩阵的每一个元素取对数

这里对取了对数的优势值再乘以10只是为了使最后分数的绝对值大致在1-10的范围,目的是为了便于使用。

图8是PAM250矩阵的对数优势值打分矩阵.

PAM250矩阵的对数优势值打分矩阵

引用

[1]: Dayhoff, M.O. (ed.) 1966. Atlas of Protein Sequence and Structure. National Biomedical Research Foundation, Silver Spring, MD.

[2]: Dayhoff, M. O. (ed.) 1978. Atlas of Protein Sequence and Structure. National Biomedical Research Foundation, Silver Spring, MD.

[3] Jonathan P. 1991. Bioinformatics and Functional Genomics,3rd Edition,66-76,Wiley-Blackwell,ISBN:9780470085851.


如何得到PAM打分矩阵——PAM打分矩阵原理与Dayhoff模型【生物信息学】的评论 (共 条)

分享到微博请遵守国家法律