欢迎光临散文网 会员登陆 & 注册

Bioinfomatics | 基于预训练的生物语言模型在药物设计中的应用

2023-08-10 16:40 作者:AIDDPro  | 我要投稿


今天给大家讲一篇2022年9月在bioinfomatics上发表的一篇关于目标导向的生成模型的文章,作者将利用生成模型设计出靶标特异性分子的任务视为氨基酸语言与药物分子语言之间的翻译问题。因此提出两种热启动策略,其一为单阶段的策略,在该策略中,利用活性分子对模型进行微调。其二为两阶段策略,先用少量化合物微调,然后用靶标特异性的分子进行训练。此外,还比较了两种解码策略(束搜索和采样)生成化合物的质量。结果表明,热启动方法设计的分子质量要比从头训练的基准模型生成的分子更有竞争性的优势

分子设计研究背景

高通量筛选方法虽然能够对大量分子进行筛选,但是其实验成本高昂且无法对目标空间进行全面筛选。此外,已有研究报道指出,设计用于特定靶标的药物可能会与其他11个靶标产生活性。深度生成模型在新药设计领域具有突出的表现。这些模型通过学习大量的化合物数据集,能够准确捕捉分子之间的结构和属性之间的关系。同时,它们还借鉴了迁移学习的思想,通过优化已有药物的结构,进一步提高其活性、选择性和药代动力学性质,从而生成更加适合特定靶标的分子。

预训练模型介绍

2.1 热启动设计流程

作者首先利用STRING数据库中绑定蛋白序列对来对RoBERTa进行预训练,通过BPE算法来切分氨基酸序列,减少了模型对于序列长度的依赖。ChemBERTa是一个基于transformer编码器的模型,它通过掩盖语言建模的方式进行预训练从而捕捉分子之间的关系和特征。

其流程如图1所示,一阶段为使用从BindingDB中过滤得到的蛋白质配体相互作用的数据来微调RoBERTa和ChemBERTa模型,二阶段为一种热启动策略,首先用MOSES数据对ChemBERTa进行微调后,再用BindingDB中过滤得到的蛋白质配体相互作用的数据来微调RoBERTa和ChemBERTa模型。Chemberta模型中的交叉注意层和预测头(将序列表征映射为输出词汇概率)也是随机初始化的。因此这些层需要在后续的微调或特定任务中进行训练。

图1 热启动设计流程

实验结果

3.1 生成分子质量评估与比较

作者对预训练模型ChemBERTaLM进行评估,并与目前主流的生成模型(作为基准方法)一样采样30K个分子,评价指标为Moses中评估分子质量的指标,其中FCD综合考虑了生成分子与训练集的物化性质的分布的近似程度。Valid表示生成有效分子的比例。如图2所示,其中Test集为随机划分的测试集,TestSF为基于骨架划分的测试集。可以发现ChemBERTaLM在FCD指标中最低,且Valid排名第二,可见其在生成近似训练集分布,且有效分子数量上相较于其余模型更优。

图2 基准比较

3.2 基准方法比较理化性质

如图3所示,为了证明热启动策略的有效性,作者选择T5模型进行比较,即根据两种不同的采样策略为测试集中的每个蛋白生成20个分子。评价指标还包括Scaf,即两组化合物的BRICS出现的频率算二者的余弦相似度。如图3所示,当采用束搜索方法生成分子时,热启动方法在生成分子的有效性指标上显著超越T5采样的分子,且EncDecLM方法表现略有优势,可以看出初始参数下,利用少量分子上对模型微调的有效性。然而在Scaf指标中,体现了微调策略的局限性,即不使用微调方法(EncDecBase),生成近似训练集片段的能力相较于EncDecLM更有优势。

图3 不同采样策略比较

结论

作者提出的热启动策略在不同的解码策略下生成的分子都优于T5模型。实验结果表明,在使用单阶段策略进行热启动的模型可以为大多数未知靶标产生靶标特异性的化合物。因此,该方法在药物设计的初期(特定靶标信息较少)时是适用的。此外,作者采用了束搜索和随机采样的方法评估生成分子的质量,多样性及对接分数。结果表明了热启动方法的有效性。热启动的模型生成分子的质量明显优于基线模型(T5),并且与EncDecBase方法的结果大致近似。在未来,可以考虑在该模型中加入随机潜在变量,以增加生成化合物的多样性。

参考文献

  1. Chen Z, Min MR, Parthasarathy S, Ning X (2021) A deep generative model for molecule optimization via one fragment modifcation. Nat Mach Intell 3(12):1040–1049

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


Bioinfomatics | 基于预训练的生物语言模型在药物设计中的应用的评论 (共 条)

分享到微博请遵守国家法律