欢迎光临散文网 会员登陆 & 注册

人工智能在药物设计中的应用(三)

2023-03-29 12:18 作者:AIDDPro  | 我要投稿

人工智能在药物设计中的决策挑战

目前大部分的人工智能系统,尤其是那些依赖于深度神经网络的系统,尽管其预测性能很高,但容易发生灾难性故障,特别是在如药物设计等错误决策的后期阶段,这限制了它们在决策时的使用。通过估计自身预测不确定性来避免做出错误决策,可以降低失败的风险。此外,专家监督可以用于检查模型决策过程,提高可靠性(图8)。然而,目前许多人工智能系统,尽管显示出很高的准确性,却不能有效地评估其在新情况下的置信度,同时有的决策缺乏可解释性,这些问题阻碍了人工智能在药物设计中的应用。

预测置信度

用于药物设计的机器学习(ML)模型的准确性受到各种误差的影响,而目前的验证方法无法有效测量这些误差。监督下的ML方法假定未来的输入将来自与训练数据相同的分布,但药物设计往往涉及到以前没有被表征过的分子,这就造成了先前数据测试所无法捕捉到的不确定性。

此外,模型的准确性还受到数据集的影响。来自不同实验室数据集在化学空间的不同区域可能具有不确定性。预测的不确定性可以分成两个部分:无因性的和认识性的。不确定性是数据生成过程中固有的,除非新数据的测量误差减少,否则无法减少;而认识上的不确定性是在正确的模型结构和参数不确定的情况下,用模型来归纳新数据时产生的。由于输入空间的高认识不确定性,模型并不适用于这些区域。可以定义模型的适用范围,以确定具有高认识不确定性的预测,并且有各种方法通过基于潜在输入与训练集中的分子的相似性,来计算输入分子是否在这个范围内。然而,这些方法并不提供对总的预测不确定性的估计。

当不确定性在整个适用范围内变化时,特别是当数据被不均匀采样时,估计模型的总预测不确定性的能力是很重要的。目前用于不确定性预测的数学方法有用于回归模型的保形回归用于分类模型的Venn-ABERS方法。以上这些方法在化学信息学中已经很常用了,因为它们不需要对现有模型进行什么修改。然而,这些方法可能无法对分布外的例子给出稳健的不确定性预测。贝叶斯模型可以提供更完整的概率分布作为预测,但训练这些模型的计算量更大。预测性不确定性的估计有可能在实践中提高ML预测的可靠性。

模型的可解释性

机器学习模型的可解释性对于高风险决策至关重要。可解释的模型必须可以还原为少量的关键参数。已经提出了构建更简单的 "元模型 "的外部解释方法,但这些方法可能不忠实于现有的模型,特别是在存在混杂因素的情况下。特征归属是在药物设计中解释ML模型的一种方法,它评估输入实例的哪些特征对模型的决策影响最大。基于梯度的方法,如似然相关性传播,可用于研究深度神经网络对输入的处理,但以分子图为输入的基于注意力的神经网络更容易解释,因为它们明确地关注用于进行预测的分子区域。

Nearest-neighbor方法使用附近的训练实例来进行预测,而神经网络在训练期间将训练集的信息编码到它们的权重中,在预测时不明确使用训练实例。然而,评估神经网络所学到的表征的相似性可以识别被神经网络类似处理的分子。基于注意力的神经网络可以用来定义测试实例之间的自定义相似性指标。识别类似物意义重大,因为它允许专家检查训练数据的潜在错误,这也是一个在药物设计中构建可解释的机器学习模型的有效框架,模型应提供支持预测的训练实例,并描述输入特征是如何被用来进行预测的。

参考资料:

Zhang Y. Bayesian semi-supervised learning for uncertainty-calibrated prediction of molecular properties and active learning[J]. Chemical science, 2019, 10(35): 8154-8163.

Thomas M, Boardman A, Garcia-Ortegon M, et al. Applications of artificial intelligence in drug design: opportunities and challenges[J]. Artificial Intelligence in Drug Design, 2022: 1-59.

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至sixiali@stonewise.cn


人工智能在药物设计中的应用(三)的评论 (共 条)

分享到微博请遵守国家法律