UnCorrupt SMILES:一种新的从头设计方法
引言
目前生成模型通常使用简化分子输入线-输入系统(SMILES)符号表示分子,该符号与自然语言处理领域的生成模型兼容。然而,使用SMILES和类似SMILES符号的一个缺点是,生成的序列在语法和化学正确性方面可能是无效的。基于GuacaMol基准,研究表明基于RNN的一般模型的无效输出率约为4%,而生成式自动编码器的无效SMILES率更高,约为15%。这种限制带来了挑战,因为无效输出无法继续,导致化学空间样本缺失或生成分子的潜在偏差。学者们一直在努力提高生成分子的有效性。设计了不同的分子SMILES表示法,如DeepSMILES和SELF-referencing Embedded Strings (SELFIES),但未被广泛采用。直接将分子表示为图的图表示法具有几乎完全生成有效输出的优势。然而,它们的计算成本较高,生成速度较慢。另一种提高输出有效性的方法是应用无上下文语法和属性语法,但这些方法会缩小搜索空间。使用翻译模型也是一种可能性,类似于语法错误纠正中使用的翻译模型,以纠正无效的SMILES序列。这些模型具有编码器-解码器架构,可以经过训练将序列翻译成其他序列。翻译模型可以被用于纠正短SMILES序列中的语法错误,特别是在分子构建模块的背景下。翻译模型也已成功应用于其他基于SMILES的任务中。本文为了训练SMILES校正器,创建了一个由无效和有效SMILES序列对组成的数据集。使用有效序列中不同程度的引入错误对校正器进行训练,以评估使用多种错误进行训练的益处。然后用表现最好的SMILES校正器修正四个从头生成案例研究的无效输出:一般RNN、VAE、GAN和条件RNN模型。利用化学相似性和性质分布等指标,将修正后的分子与训练集和四个从头生成模型最初生成的分子进行比较。此外,应用SMILES校正器校正了选择性极光激酶B抑制剂中的错误,评估了局部序列探索扩展附近化学空间的潜力。
本研究首次探索了无效分子表征在新药设计中的潜力,并研究了纠正这些表征对生成分子的质量和多样性的影响。
方法
2.1 数据集和预处理
该研究需要一个无效SMILES序列及其相应有效分子的数据集来训练SMILES校正器。由于没有人工校正的序列对,因此故意将错误引入正确的SMILES序列,以创建无效-有效序列对的训练集。为此使用了Papyrus数据集(5.5版)中未指定立体化学的标准化分子。采用ChEMBL结构管道进行标准化,包括去除溶剂、盐和重复片段。通过随机排列并遵循SMILES语法规则将错误引入标准化分子中。还通过修改键序和将GDB-8数据库中的小片段添加到 "全 "价原子中来引入价误差。每个输入SMILES创建了不同错误数的多个集合,从2到20个错误不等,随着错误数的增加,间隔也增加。为了训练从头生成器,Papyrus数据集也在预处理步骤后被使用。对于DrugEx,数据集按照Liu等人的描述进行了预处理,而对于GENTRL,只包含了能被tokenizer解析的SMILES。ORGANIC是另一种从头生成器,使用RDKit的球排除算法在从Papyrus数据集中提取的15,000个不同分子的较小集合上进行训练。对于靶向案例研究,我们创建了一个数据集来训练和评估预测模型。从Papyrus数据集中收集了人极光激酶A(AURKA)和人极光激酶B(AURKB)的高质量和中等质量的活性数据。此外,还创建了两个靶点的实验Ki值数据集,以开发选择性窗口模型。总之,该研究利用不同的数据集和预处理技术来训练SMILES校正器和从头生成器,并为靶向案例研究开发预测模型。
2.2 生成模型
本研究采用了四种不同的生成模型进行案例研究:通用RNN模型、目标定向RNN模型、VAE和GAN。通用RNN模型名为DrugEx,由Liu等人创建,并在标准化的Papyrus数据集上进行了预训练。本研究使用了经过预训练的DrugEx版本。对于靶向RNN模型,预训练的DrugEx模型在对极光激酶A(AURKA)和/或极光激酶B(AURKB)进行测试的分子上进行了微调,并利用强化学习对选择性AURKB化合物进行了优化。为了预测新分子的生物活性,建立了三个预测模型:两个模型预测AURKA和AURKB的生物活性,一个选择性窗口模型预测化合物对AURKB而不是AURKA的选择性。定量结构-活性关系(QSAR)回归模型使用Scikit-learn构建,其中分子使用理化性质和扩展连接性指纹进行描述。名为GENTRL的VAE生成模型在Papyrus数据集上进行了预训练,并按照Zhavoronkov等人描述的步骤,以50个批次、10个epochs、10-4的学习率进行了训练。名为ORGANIC的GAN模型在来自Papyrus数据集的15,000个不同分子集上进行了训练。生成器和判别器的预训练分别进行了240次和50次。然后按照Lipinski的5规则对模型进行110个历时的训练。训练结束后,每个生成模型被用于创建100万个序列,称为 "易生成序列"。这些序列由模型生成,未应用任何SMILES校正。
2.3 SMILES校正模型
使用PyTorch构建SMILES校正模型时使用了Transformer模型。该模型架构改编自Ben Trevett的PyTorch Seq2Seq模型。输入和输出序列使用TorchText标记化器进行标记化,输出序列被反转。所使用的SMILES标记符号化器基于Olivecrona等人的标记符号化器,其中大多数标记符号代表单字符,但双字母原子符号、括号内的原子描述以及%符号后的数字除外。此外,还使用了起始、停止和填充标记。Transformer模型架构沿用了Vaswani等人的论文中描述的模型,其中包含了学习的位置编码,并采用了标准的Adam优化器。与最初的实现不同,该模型不包括标签平滑。优化器的学习率设定为0.0005。编码器由一个嵌入层和一个位置嵌入层组成,二者的维度均为256,滤除率为0.1。编码器由三层多头注意力和位置前馈机制组成。多头注意层的维数为256,有8个头,而位置前馈机制的维数为512,具有ReLU激活函数。在每一层之后都进行了丢弃和层归一化处理。编码器生成与标记相对应的上下文向量。解码器有两个多头注意机制,一个使用目标作为输入,另一个使用编码器表示。它还包括预测前的线性层。
SMILES校正器模型在来自合成数据集的90%无效-有效对上进行训练,并在来自相同数据集的剩余10%无效和有效序列以及每个生成模型的10,000个无效输出上进行评估。模型训练了20个epochs,批量大小为16。使用RDKit计算每个epoch的评价指标,如有效SMILES的百分比和分子重建率(衡量翻译输出和原始目标分子之间的一致性)。在评估集上SMILES验证率最高的模型被保存。在案例研究中,确定了SMILES校正后有效SMILES的百分比,以及与输入相比被修改的有效和无效输出的百分比。
结果和讨论
3.1 错误的发生率和类型
为了分析生成序列中错误的发生率和类型,生成并检查了100万条序列。预训练和目标定向RNN模型的无效输出百分比分别为5.7%和4.7%。GAN的无效序列百分比略高(9.5%),而VAE的无效输出百分比最高(88.9%)。这些发现与之前的基准和研究结果一致,这些基准和研究结果表明,基于RNN的模型具有相似的有效性水平,而基于VAE的模型具有更高的无效率。

RDKit捕获的解析错误分为六种不同的错误类型。基于RNN的模型和GAN主要产生与化学相关的错误,而VAE输出则表现出更多的SMILES语法错误。之前对VAE生成的SMILES进行的定性分析显示,括号和环符号对的匹配存在困难。在与化学相关的错误中,芳香性错误在基于RNN的生成器中最为普遍,而价态错误在GAN模型中最为普遍。这表明,与VAE模型相比,RNN和GAN模型更擅长学习SMILES语法。虽然已经开发了使用SELFIES或图形表示法的替代方法来解决SMILES有效性问题,但它们目前不如基于SMILES的生成器常用。这些发现凸显了不同的基于SMILES的生成模型在无效输出的普遍性和性质方面的差异,并强调需要纠正各种类型的错误,以便有效地纠正它们。对SMILES校正器模型进行了训练,以修复无效的SMILES序列,并在一个评估测试集上进行了评估,该测试集包括与相应有效SMILES配对的合成错误,以及由从头生成器生成的无效输出。在合成测试集上进行评估时,校正器能够修复93%的无效SMILES,分子重建率为78%。这表明,虽然固定的分子不一定总是与原始分子相匹配,但它们通常代表了预期的分子。
3.2 SMILES校正器的性能
为了测试是否存在过度校正,校正器在有效的SMILES序列上进行了评估。发现在翻译过程中被改变的有效序列的百分比很低(14%),这表明校正器主要集中于校正SMILES的错误部分。这表明校正器能够区分正确和错误的序列。

然而,当应用于从头生成器生成的无效SMILES时,校正器的性能较低。有效输出的百分比从35%到80%不等,其中来自GAN的错误最容易纠正。这种性能下降可归因于错误检测不足,被翻译器修改的输入百分比较低就说明了这一点。这些结果与纠正无效SMILES语法的相关研究结果一致。在VAE中,高比例的改动输入(90%)与高验证率并不对应,这表明很难找到正确的纠正方法。总体而言,未改动序列的比例相对较高,而验证率较低,这突出表明需要更具代表性的训练对来提高SMILES校正器的性能。
3.3 对极光激酶的适用性
在创造新的选择性极光激酶B(AURKB)配体方面,该研究比较了基于SMILES的探索和已有的靶向从头生成方法。与靶向RNN方法相比,通过基于SMILES的探索生成的分子与原始化合物的平均相似度更高。基于SMILES探索生成的支架与已知配体的相似度也更高,这反映在KL发散得分上,表明SMILES探索更接近目标数据集的性质分布。
根据所生成的新型化合物的预测生物活性和选择性评估了探索附近化学空间的潜力。结果表明,新化合物的生物活性与起始化合物相似,其中一个化合物对AURKB的亲和力稍低,但选择性较高。对接分析表明,生成的化合物占据了与共晶体配体相同的区域,并具有额外的稳定作用。SMILES探索产生的化合物具有与已知化合物相似的生物活性,但密度较高,约为6.0对数单位,而靶向RNN方法产生了更多具有较高预测活性的化合物。


总之,研究结果表明,SMILES探索法适用于生成与起始化合物相似的新型化合物。然而,与强化学习方法相比,它在生成具有理想生物活性的化合物方面可能效率较低。尽管如此,在以前的衍生化设计研究中,与已知活性物质保持更接近的方法在更高的命中率方面表现出了优点。
结论
该项目是对深度学习方法在从头药物设计中纠正无效序列的首次全面研究。它挑战了无效SMILES序列无用或应该避免的观念。该研究表明,根据合成错误训练的Transformer网络可以成功修复由不同错误分布的分子生成器生成的60%以上的无效SMILES。此外,在具有多个错误的序列上训练的SMILES校正器表现出更高的性能。
此外,该研究强调,预训练的SMILES校正器可以生成与原始生成器或分子集分布相同的新分子。这表明SMILES校正器可以独立用于探索感兴趣分子附近的化学空间。总之,这项研究证明了基于深度学习的SMILES校正方法在从头药物设计中的潜力和实用性,并强调了无效序列在扩展搜索空间和生成多样化有效分子方面的价值。
参考资料:Schoenmaker L, Béquignon OJM, Jespers W, van Westen GJP. UnCorrupt SMILES: a novel approach to de novo design. J Cheminform. 2023 Feb 14;15(1):22. doi: 10.1186/s13321-023-00696-x. PMID: 36788579; PMCID: PMC9926805.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn