可解释性 (Interpretability) 机器学习技术实践

机器学习的特征,便是从特定类型的数据中寻找规律。在大数据,算法模型,计算力三驾马车的推动下,以深度学习为核心的新一代人工智能,从语音识别到语言翻译,从下围棋的机器人到自动驾驶汽车,各行各业都在该技术的驱动下出现了新的突破。然而,在现代机器学习算法中,可解释性与精确度却难以两全其美。深度学习精确度最高,同时可解释性最低。—— 我们虽然知道神经网络在『做什么』,但我们对『怎么做、为何做』几乎一无所知。正如下图:X 轴为可解释性(Explain Ability),Y 轴为预测精确率(Prediction Accuracy)—— 其中决策树(Decision Tree)的可解释性最高,然而预测精确率却最低。

日前,Two Sigma 人工智能工程师 Xiang Zhou 概述了几种方法来理解机器学习模型如何得到它们所做的答案以及它们的相对优点和缺点 ——
Partial Dependence Plot (PDP);
Individual Conditional Expectation (ICE)
Permuted Feature Importance
Global Surrogate
Local Surrogate (LIME)
Shapley Value (SHAP)
Partial Dependence Plot (PDP)
PDP 是十几年之前发明的,它可以显示一个或两个特征对机器学习模型的预测结果的边际效应。它可以帮助研究人员确定当大量特征调整时,模型预测会发生什么样的变化。

如上图所示,轴表示特征的值,轴表示预测值。阴影区域中的实线显示了平均预测如何随着值的变化而变化。PDP 能很直观地显示平均边际效应,因此可能会隐藏异质效应。例如:一个特征可能与一半数据的预测正相关,与另一半数据负相关。那么 PDP 图将只是一条水平线。
Individual Conditional Expectation (ICE)
ICE 和 PDP 非常相似,但和 PDP 不同之处在于,PDP 绘制的是平均情况,但是 ICE 会显示每个实例的情况。ICE 可以帮助我们解释一个特定的特征改变时,模型的预测会怎么变化。

如上图所示,与 PDP 不同,ICE 曲线可以揭示异质关系。但其最大的问题在于:它不能像 PDP 那样容易看到平均效果,所以可以考虑将二者结合起来一起使用。
Permuted Feature Importance
Permuted Feature Importance 的特征重要性是通过特征值打乱后模型预测误差的变化得到的。换句话说,Permuted Feature Importance 有助于定义模型中的特征对最终预测做出贡献的大小。

如上图所示,特征 f2 在特征的最上面,对模型的误差影响是最大的,f1 在打乱之后对模型却几乎没什么影响,剩下的特征则对于模型是负面的贡献。
Global Surrogate
Global Surrogate 方法采用不同的方法。它通过训练一个可解释的模型来近似黑盒模型的预测。首先,我们使用经过训练的黑盒模型对数据集进行预测;然后我们在该数据集和预测上训练可解释的模型。训练好的可解释模型可以近似原始模型,我们需要做的就是解释该模型。其中,代理模型可以是任何可解释的模型:线性模型、决策树、人类定义的规则等。

使用可解释的模型来近似黑盒模型会引入额外的误差,但额外的误差可以通过 R 平方来衡量。由于代理模型仅根据黑盒模型的预测而不是真实结果进行训练,因此全局代理模型只能解释黑盒模型,而不能解释数据。
Local Surrogate (LIME)
LIME(Local Interpretable Model-agnostic Explanations)和 Global Surrogate 是不同的,因为它不尝试解释整个模型。相反,它训练可解释的模型来近似单个预测。LIME 试图了解当我们扰乱数据样本时预测是如何变化的。

上面左边的图像被分成可解释的部分。然后,LIME 通过 “关闭” 一些可解释的组件(在这种情况下,使它们变灰)来生成扰动实例的数据集。对于每个扰动实例,可以使用经过训练的模型来获取图像中存在树蛙的概率,然后在该数据集上学习局部加权线性模型。最后,使用具有最高正向权重的成分来作为解释。
Shapley Value (SHAP)
Shapley Value 的概念来自博弈论。我们可以通过假设实例的每个特征值是游戏中的 “玩家” 来解释预测。每个玩家的贡献是通过在其余玩家的所有子集中添加和删除玩家来衡量的。一名球员的 Shapley Value 是其所有贡献的加权总和。Shapley 值是可加的,局部准确的。如果将所有特征的 Shapley 值加起来,再加上基值,即预测平均值,您将得到准确的预测值。这是许多其他方法所没有的功能。

该图显示了每个特征的 Shapley 值,表示将模型结果从基础值推到最终预测的贡献。红色表示正面贡献,蓝色表示负面贡献。
下表总结了本文中涉及的方法,按复杂度从最小到最大排序 ——

研究人员应该如何决定哪种方法是最好的一个给定的问题?记住以下三点 ——
你是需要理解模型的整个逻辑,还是只关心特定决策的原因?这将帮助您决定是要全局方法还是局部方法。
你的时间限制是多少?如果用户需要迅速作出决定(例如,可能即将发生自然灾害,公共官员必须评估可能的应对措施),最好有一个简单易懂的解释。但如果决策时间不是一个限制(例如,在发放贷款的过程中),人们可能更喜欢一个更复杂、更详尽的解释。
用户的专业水平是多少?预测模型的使用者在任务中可能有不同的背景知识和经验。他们可以是决策者、科学家、工程师等等。了解任务中的用户体验是感知模型可解释性的一个关键方面。领域专家可能喜欢更复杂的解释,而其他人可能想要一个容易理解和记住的解释。
基于目前流行的机器学习模型可解释性工具,跨象乘云™ 分别发布了《心脏病诱因机器学习模型可解释性分析》与《可解释性宫颈癌活检诊断》两个面向机器学习在智能医疗、机器诊断协作上的实践应用案例。通过对特征重要度、PDP、SHAP 等关键指标的分析,帮助你了解机器学习模型的决策过程,进一步加深对机器学习模型工作原理的理解,并且能通过绘制具有交互式的绚丽图形对模型的决策过程进行专业而直观的解读。





随着人口增长,通过机器学习、深度学习等新一代智能化技术实现医疗诊断辅助已经越来越普遍。然而,对于医疗领域而言,由于缺乏可解释性判断决策依据,限制了机器学习模型智能化进一步在医疗领域内的多元化应用拓展。可解释性机器学习技术的发展,无疑为机器学习模型的预测与判断提供线索,有望突破其在医疗领域内的束缚,协助人类医疗工作者实现更为高效精准的诊断。
以上项目案例已发布至企业知识微店,个人用户获取视频内相关代码与数据集,请扫描下方二维码关注或订阅。



参考文献:https://www.twosigma.com/articles/interpretability-methods-in-machine-learning-a-brief-survey/
参考文献:https://mp.weixin.qq.com/s/2ygv3P93gN7wDA4N8NpcIg