JC | 用于分子性质预测的Double-head Transformer神经网络

2023-03-28 09:17 作者:AIDDPro 0人读过 | 我要投稿

今天介绍的是近期发表在Journal of Cheminformatics的一篇论文：《Double-head transformer neural network for molecular property prediction》。这篇文章提出了一种新的深度学习模型-DHTNN，用于分子属性预测。在DHTNN中设计了一种新的激活函数beaf，可以显著提高分子特征的非线性表示的泛化能力。为了解决梯度爆炸问题并确保模型能够快速收敛，论文还引入了残差网络。基于双头注意力机制的Transformer被用于提取分子固有的详细特征，并合理分配权重以实现高精度的分子属性预测。该模型在MoleculeNet基准数据集上的表现显示出明显的性能提升。

研究背景

分子性质预测指的是对分子的亲脂性、结合亲和力、生物活性和毒性等性质进行有效的鉴定。对于药物设计、材料科学和基因工程等领域，准确可靠的分子性质预测可以加速开发过程并降低开发成本。当前人工智能预测分子性质的研究主要分为两类：机器学习方法和深度学习方法。机器学习方法需要依赖领域专家手动提取特征，由此制作的分子描述符很容易受到专家主观经验和知识的限制。与机器学习方法不同，深度学习能够自动提取特征，因此深度学习方法特别适用于分子性质预测。然而目前现有的基于深度学习的分子性质预测模型存在预测精度低的问题，其主要原因是由于在分子特征的非线性表示中使用传统的激活函数，如ReLU、PReLU和Tanh，导致泛化能力差。网络可能存在梯度消失或爆炸的问题。提取分子详细特征时不能考虑全局信息。基于以上问题，作者提出了一个新的神经网络框架DHTNN;它使用新的激活函数（Beaf）、残差网络和基于双头注意力机制的Transformer来处理和提取分子特征，以进行高精度的分子性质预测。

模型架构

神经网络框架分为三个部分，如图1所示，分别是分子特征的高精度非线性泛化表示、分子残差网络编码和基于双头块的Transformer的分子特征提取。将分子化学式转化为分子图后，采用新的激活函数Beaf来提高算法模型的准确性和泛化性。分子残差网络编码部分包括有向MPNN、批归一化层、分子前馈神经网络和残差网络，其功能是将前一部分的分子图编码为矩阵并调整数据分布，然后将数据传递到下一层。为防止神经网络梯度消失或爆炸，增加了残差网络。基于双头块的Transformer的分子特征提取能够快速准确地提取分子的内在细节特征，并并行获取分子的全局信息，从而进一步提高模型的预测性能。

图1 模型架构Beaf由主函数x、Tanh、SoftPlus和常数c组成，可实现非线性转换（如图2公式）。作者对比了Beaf和其他常见的激活函数（如Tanh、ReLU、ELU和GeLU），并说明了Beaf的优点。与Tanh相比，Beaf不会饱和且可以在任何位置求导；与ReLU相比，Beaf可以处理负数；与ELU相比，Beaf的非线性映射更加明显，映射后的值之间的差异更大，映射更准确；与GeLU相比，Beaf可以更好地处理负数，不会过早地趋向零。Beaf的函数图像如图2右所示。

数据来源

本文使用的数据集来源于MoleculeNet基准数据集。该任务类型选择了六个数据集（Lipophilicity、PDBbind、PCBA、BACE、Tox21和SIDER），包括回归和分类，涵盖了生理学、物理化学和生物物理学三个领域。这些数据集按照8:1:1的比例进行随机和骨架分割，分为训练集、验证集和测试集。训练集用于训练模型，验证集用于调整超参数和优化模型，测试集用于评估模型性能。数据集最小包含168个分子，最大包含437,928个分子，以确保该算法适用于各种规模的数据集。

实验结果

4.1 激活函数选择的验证

为了验证激活函数Beaf在模型上的优势，作者对激活函数选择进行了实验验证。在六个数据集上评估分别带有激活函数Beaf、ELU 和 GeLU模型的性能，如表1和2所示。在回归任务上，Lipophilicity 和 PDBbind数据集上使用Beaf具有显着优势。在分类任务上，PCBA、Tox21和SIDER数据集上使用Beaf具有显着优势。因此作者选用Beaf作为模型的激活函数，并进行与其他模型性能的评估。

表1 激活函数 Beaf、ELU 和 GeLU 在 Lipophilicity 和 PDBbind 数据集上的性能比较（值越低越好）

图2 激活函数Beaf、ELU和GeLU在PCBA、BACE、Tox21 和SIDER数据集上的性能比较（值越高越好）

4.2 与现有模型性能评估

作者将DHTNN算法与其他先进的方法进行了比较，无论是回归任务还是分类任务，DHTNN均取得了最优的结果。作者还发现，数据样本数量越多，DHTNN学习到的内在特征越丰富，分子特性预测越好。PCBA数据集包含430,000个数据样本，是四个分类数据集中最大的数据集。因此，DHTNN性能提升也是最大的。此外作者表明，无论是在回归还是分类数据集上，DHTNN模型都没有表现出梯度消失或爆炸。模型中的分子残差网络对模型收敛起到了重要作用。

结论

在这项工作中，作者提出了一种用于分子性质预测的新框架DHTNN。该框架在分子非线性表示部分中添加了一种新的激活函数Beaf，提高了模型的非线性表示精度和泛化能力。在分子编码部分，添加残差网络防止梯度消失或爆炸，并确保模型能够收敛。在分子特征提取方面，基于双头注意力的Transformer的加入可以聚焦于与预测结果相关性高的特征，并合理地分配权重。在六个数据集上的评估表明，DHTNN在所有指标上均优于当前最先进的方法。

参考文献

Song, Y., Chen, J., Wang, W., Chen, G., & Ma, Z. (2023). Double-head transformer neural network for molecular property prediction. Journal of cheminformatics, 15(1), 27. https://doi.org/10.1186/s13321-023-00700-4

版权信息

本文系AIDD Pro接受的外部投稿，文中所述观点仅代表作者本人观点，不代表AIDD Pro平台，如您发现发布内容有任何版权侵扰或者其他信息错误解读，请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权，禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn

标签：分子性质预测性质预测