人工智能在数据资源、方法和应用等多方面助力药物研发
药物发现是发现针对疾病的新药的过程,涉及使用各种各样的技术和专业知识。一般而言,发现和开发一种药物平均需要28亿美元和15年。常规方法的低效、高成本的特点成为药物发现的障碍。到目前为止,AI技术已经在药物发现过程中实施,如药物靶标预测、生物利用度预测和从头药物设计。一些主要的制药公司,如拜耳、罗氏和辉瑞也开始与IT公司合作,开发基于 AI 技术的药物设计方法。最近,在 AI 的帮助下,Insilico Medicine公司发现了治疗特发性肺纤维化的药物,该药物在 I 期试验中表现出积极的结果。将 AI 技术应用于药物发现和评价的基本示意图总结见图1。

基于 AI 的药物发现资源和方法
1.1 数据资源
高质量的数据集是将 AI 应用于药物发现的关键。高通量测序和 IT 的进步推动了一系列用于药物发现的免费和开放获取数据库的产生。这些数据库使药物发现能够跨入大数据时代,加速药物发现过程。

ChEMBL是一个手动管理的数据库,目前包含超过200万个表现出药物样特性的化合物。ChEMBL收集关于化合物的作用机制、分子特性、吸收、分布、代谢、排泄、毒性、治疗适应症和靶标相互作用的信息。
ChemDB 是一个可自由访问的数据库,包含近500万个市售小分子及其理化性质,如分子量、溶解度和可旋转键。此外一系列化学信息学工具,如Smi2Depict、MOLpro、AquaSol和 Reaction Predictor 也嵌入到了 ChemDB 中。
药物-基因相互作用数据库 (DGIdb) 提供关于药物-基因相互作用以及可与药物相互作用的基因或基因产物的信息。迄今为止,DGIdb包含超过40,000个基因和10,000种药物,参与超过100,000种药物-基因相互作用。用户可以浏览每个类别中的基因,也可以输入基因或药物列表,在搜索模块中检索药物-基因相互作用。
DrugBank 是一个免费访问的参考药物数据库。目前包含14746种药物,以及关于药物-药物相互作用、药物-靶标相关性、药物分类和药物反应的全面信息。用户可以使用嵌入的工具在 DrugBank 中搜索、浏览和提取文本、图像和结构数据。DrugBank 已成为世界上应用最广泛的药物筛选、设计和代谢预测资源。
副作用资源 (SIDER) 是一个数据库,重点关注药物及其副作用。目前发布的 SIDER 包括1430种药物、5880种副作用和140.064种药物副作用对。
1.2 分子表征与结构表示
随着天然产物的爆炸性增长,基于 AI 的药物发现和分析的另一个关键点是将分子转移到计算机可读的格式中,同时保持其固有的理化性质。为了加速药物发现过程,人们提出了一系列用于计算分子表征和结构表示的开源工具包,如 OpenBabel和ChemmineR。

1.3 常用 AI 技术
在药物发现领域使用了两种常见的 AI 技术,即监督和无监督学习。种监督学习技术使用输入标记的数据来训练能够对新数据的结果进行分类或预测的模型。相比之下,无监督学习技术处理未标记的数据,旨在开发能够在没有先验知识的情况下识别重复模式和输入数据聚类的模型。监督学习技术可进一步分为分类和回归算法,无监督学习技术包括聚类和降维算法。为了便于用户应用这些 AI 技术,一系列开源包和框架,如Scikit-learn、PyTorch、和Keras(https://github.com/fchollet/keras) 已被开发用于实践上述算法。药物发现中广泛使用的 AI 技术列于表2。

药物分析涉及药物原料的鉴定、测定、定量和纯化过程;是药物发现的必要部分。定性和定量分析是药物分析中的两大类实验方法。尽管这些技术表现出很高的准确性,但它们从大量天然产物中筛选新型候选药物的成本仍然很昂贵。与实验技术相比,计算方法所需的成本可以忽略不计。因此,AI技术已被用于药物分析,以补充实验技术。AI 技术在药物分析中的代表性应用总结见图3。

2.1 药物毒性预测
毒性是衡量化学品的不利或不良影响的指标。毒性评价是药物发现的基本步骤之一,它旨在鉴定对人类有有害影响的物质。计算方法具有能够以低成本和高效率预测化学物质毒性的优点。例如DeepTox 是预测化学物质毒性的集成模型,其基本框架基于三层深度神经网络 (DNN)。
2.2 药物生物活性预测
在现实中,大量来源于天然产物的药物由于缺乏生物活性而无效。因此,药物生物活性评估已成为药物发现的一个活跃领域。AI技术已被有效地应用于预测药物生物活性,如抗癌、抗病毒和抗菌活性。例如,Stokes等人提出了一种能够预测抗菌活性的定向信息传递神经网络。
2.3 药物理化性质预测
理化性质是药物的内在特性,了解和模拟药物的作用需要了解理化性质。Panapitiya 等人评估了用于溶解度预测的不同深度学习方法和分子表示方法。基于相同的测试数据集,作者发现完全连接的神经网络通过利用分子表征实现了溶解度预测的最佳性能。
2.4 从头药物设计
从头药物设计是指在没有起始模板的情况下生成新型药物样化合物的过程。近年来,人们提出了各种基于深度学习的药物从头设计模型,如基于强化学习的模型ReLeaSE、基于编码器-解码器的模型ChemVAE、基于 GAN 的模型GraphINVENT、和基于 RNN 的模型MolRNN。
2.5 靶点结构预测
大多数药物靶点是在酶活性、细胞信号传导和细胞间转导中发挥重要作用的蛋白质。蛋白质的功能由其结构决定。虽然人们提出了常规的实验技术,如 X 射线晶体学、低温电子显微镜和核磁共振波谱等来确定蛋白质结构,但它们仍然耗时且成本高昂。DeepMind开发的基于神经网络的 AlphaFold 方法是性能最好的方法,并且能够从其氨基酸序列预测蛋白质的 3D 结构。
2.6 DTI 预测
DTI 预测是指生物体内化合物与蛋白质靶点的相互作用,是药物发现的必要过程。最近,不断增加的生物学数据为 DTI 的计算机预测铺平了道路。因此可以分为以下几类:基于配体的方法、对接模拟、基于基因本体的方法、基于文本挖掘的方法和基于网络的方法。
AI 在药物设计中的先进应用
3.1 药物协同/拮抗作用预测中的 AI药物协同作用可以克服原发性和继发性耐药,它对癌症、艾滋病和细菌感染的治疗有效,而拮抗作用降低了药物的有效性。AI 技术的进步使其适用于以更低的成本和更高的效率探索可能的药物组合。
3.2 纳米医学设计中的 AI
纳米药物是由纳米尺度的材料开发的,因此,它们可以穿透屏障与体内的靶标相互作用。然而,对纳米材料性质和生物反应缺乏定量和定性的了解,限制了纳米药物的广泛应用。纳米技术和 AI 的结合为应对这一困境提供了新颖的解决方案。例如Muñiz Castro等人开发了一种 3D 打印纳米材料管线,可以预测纳米材料的温度、细丝力学特性和溶解时间。
3.3 寡核苷酸设计中的 AI
除了来源于天然产物的药物外,由 DNA 或 RNA 短链组成的寡核苷酸治疗药物已成为一类新型药物。由于实验设计这些寡核苷酸将花费大量资源,AI方法也被用于帮助研究人员鉴定和设计基于寡核苷酸的药物。
结论
在过去的几年里,我们见证了 AI 技术在药物发现和开发的各个步骤中的广泛应用。AI 技术的蓬勃发展为药物发现的加速做出了实质性的贡献。(ChatGPT) 的应用也是药物发现和开发中一个很有前途的课题。由于它可以提供鉴定潜在靶点、设计新药和优化候选药物药效学的方法,ChatGPT有可能加快药物开发过程。然而AI技术在药物发现中也存在诸多挑战,如用于训练基于 AI 技术的模型的高质量数据的可用性、缺乏可解释性、以及模型的可用性和可及性。尽管存在上述挑战,但 AI 技术已被纳入药物发现和开发领域。相信 AI 技术将为这一领域带来革命性的变革。参考文献:
Chen W, Liu X, Zhang S, Chen S. Artificial intelligence for drug discovery: Resources, methods, and applications. Mol Ther Nucleic Acids. 2023 Feb 18;31:691-702. doi: 10.1016/j.omtn.2023.02.019. PMID: 36923950; PMCID: PMC10009646.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn