欢迎光临散文网 会员登陆 & 注册

Bioinformatics | MFR-DTA:一种预测药物-靶点结合亲和力和区域的多功能稳健模型

2023-03-21 09:25 作者:AIDDPro  | 我要投稿



今天给大家讲一篇2023年1月在Bioinformatics上发表的关于蛋白靶标相互作用预测的一篇文章,作者提出了MFR-DTA模型,利用BioMLP模块来提取生物序列特征,并且通过Mix-Decoder模块提取药物-靶标相互作用信息,并同时预测对应的结合区域,并在一个新的数据集sc-PDB上与一些现有sota方法比较绑定区域预测的准确性,从而证明了其比现有的方法的优越性。

蛋白靶标相互作用预测研究背景

通常我们将药物靶点相互作用预测是一个二值分类任务,但是定值的标签通常很难反映相互作用的强度。Tang等人提出使用正则化最小二乘方法,将药物靶点相互作用视为回归任务来表示该作用的强度。此外,Oztu¨rk et al.等人首先提出了利用卷积神经网络(CNN)提取的生物序列特征的DeepDTA模型来预测该任务,进一步,transformercpi利用自注意力机制增加了相互作用预测的可解释性中,但该方法训练时消耗了一定的内存。然而大部分基于注意力机制的方法在识别绑定区域上效果不是很好,或者说突出显示的区域与蛋白质的生物学特性无关。

MFR-DTA模型总体架构

2.1  BioMLP及CNN架构

如图1所示,BioMLP/CNN块的输入是药物或蛋白质特征表示。其中药物特征表示由分子指纹图卷积方法提取的特征组成,蛋白的特征是由氨基酸嵌入(AAE)和单词嵌入(WE)组成。作者首先利用全局特征提取器,提取不同生物序列的相关性,该模块包含了三个完全连接的层和两个ReLU层,接着药物的表征通过CNN架构,蛋白的表征通过MLP架构来提取,其中空间注意力模块用来捕获相邻原子之间的局部关系。BioMLP使用较少的线性层来提取局部特征,适用于较短药物序列。相比之下,BioCNN使用了更多的卷积层,有效地提取如蛋白质序列这样复杂的特征。

图 1 BioMLP/CNN块的构建

2.2 构建混合解码块

如图2所示,混合解码器可以提取蛋白和配体之间的交互特征从而预测它们之间的结合区域。公式如下所示

其中Si表示为结合区域的第i个元素,即将药物特征矩阵作为一个卷积核,并通过卷积运算将蛋白质特征与核进行相乘得到二者交互的信息。若该值较高则被认为是药物靶标的结合区域。进一步,作者通过全局平均池化将邻接矩阵向下采样为原子连通性向量,从而减少参数量。

最后,通过两个增强(S-E)块和一个交叉注意力(C-A)块来分别融合蛋白与蛋白之间,药物与药物之间以及蛋白质和药物之间的相互作用的特征,最终通过平均池化以及拼接的方式药物-蛋白相互作用特征,再通过全连接层从而预测二者结合亲和力。

图2混合解码块的构建

实验结果

3.1 评估数据集和指标

作者利用三个数据源,KIBADavis以及sc-PDB上的额外的氨基酸序列数据,各自数据相应的蛋白药物数量分布如图3所示。三个数据集的蛋白质序列长度均小于1500为主,分布相对均匀。大多数药物都是由小于100个原子组成的小分子。

此外,作者通过分子量、拓扑极性表面积、氢键供体数量、氢键受体数量和油水分配系数等性质发现Davis和KIBA中化合物的性质是相似的,这些性质决定了药物是否与蛋白质发生相互作用。训练方式采用5折交叉验证来训练样本分为训练集和验证集。

模型的评价指标包括一致性指数,均方误差,相关系数等。一致性指数是估计了预测结果与实际观察到的结果相一致的概率。

图3 不同数据集的理化性质及数据量分布

3.2 蛋白质特征提取与融合方法的分析

实验分析结果如图4所示,作者在提取蛋白表征的时候分别提取了氨基酸的嵌入以及单词嵌入两种提取特征表示方法都取得了良好的效果。氨基酸的嵌入的生物学特性有助于模型预测亲和力,因此它在CI指标方面表现更好。单词嵌入提取方法提供了更多的语义信息,使得模型在MSE指标表现得更好。

图4 不同的特征组合方式的消融实验

3.3 不同交互特征提取方法的分析

为了研究所提出的混合解码器块的有效性,分别采用只是做拼接替换informer块来进行消融对比,如图4所示,X轴和y轴分别表示一个样本的预测和测量的亲和力的值。只是拼接的话,在Davis数据集上,标签值小的样本数量比标签值大的数量更多,因此模型预测的亲和力的值通常小于测量的模型。相比之下,informer块和混合解码器块都可以有效地缓解这个问题,而混合解码器块的性能更为突出。此外,KIBA的标签分布相对正常。这三种方法的散点也大部分集中在对角线上,而混合解码器块的散点分布更为集中。

图5 不同解码方式的消融实验

结论

作者提出了一种新的MFR-DTA方法来同时预测DTA和结合区域。首先通过BioMLP/CNN块提取生物序列特征,整合单个元素特征和全局位置特征。然后,利用逐元素融合块对提取的特征进行融合,再利用混合解码器来提取蛋白配体相互作用的特征再通过将全连接层从而预测二者之间的亲和力。在未来希望引入更多有效的蛋白配体数据集提高深度学习模型的鲁棒性,并继续提高DTA模型的生物学可解释性,同时提高其准确性从而帮助研究人员发现新药。

参考文献

Abbasi,K. et al. (2020) DeepCDA: deep cross-domain compound–protein af-finity prediction through LSTM and convolutional neural networks.Bioinformatics, 36, 4633–4642.

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


Bioinformatics | MFR-DTA:一种预测药物-靶点结合亲和力和区域的多功能稳健模型的评论 (共 条)

分享到微博请遵守国家法律