科研代码大全|DALEX包用于探索/解释/评估模型/分析不同特征变量对响应变量的影响

2022-05-23 10:32 作者:尔云间 0人读过 | 我要投稿

科研有捷径，输入代码，一键获取科研成果！就是这么省事，来具体看下有多方便！

搜索http://985.so/a9kb查看全部代码（目前共计50+持续新增中），也可以点击右侧【目录】，可以看到更多有趣的代码

真香提示：文末可以知道如何获取代码~

机器学习模型被广泛使用，并且在分类或回归任务中有各种应用。由于计算能力的提高、新数据源和新方法的可用性，ML模型越来越复杂。使用增强、神经网络装袋等技术创建的模型是真正的黑匣子。很难追踪输入变量和模型结果之间的联系。它们因高性能而被使用，但缺乏可解释性是它们最弱的方面之一。

在许多应用中，我们需要知道、理解或证明模型中如何使用输入变量以及它们对最终模型预测有什么影响。而DALEX是一组帮助理解复杂模型如何工作的工具，为了解决分类和回归问题的数据训练而创建的一个综合工具包。

小编最近学习到DALEX包能够对建立的模型进行很好的解释，不仅能够对模型进行评估，还可以进行不同特征变量对响应变量的影响进行分析。

目前，已有研究将DALEX包应用于生信文章，如下图。这是来自Am J Transl Res

的一篇IF > 4分生信文章。

但是具体要如何实现？？？

今天，下面小编以生物信息转录组数据为例进行说明。

代码具体包括：

Step1 输入数据并划分训练集和测试集

Step2构建模型（随机森林RF、广义线性回归GLM和支持向量机SVM）

Step3模型解释（DALEX包的explain函数对三个模型进行解释性分析）

Step4模型表现（model_performance函数）

Step5变量重要性分析（此处损失函数为均方根误差）

Step6单个连续型解释变量与响应变量关系（variable_effect函数）

下面是代码中附带数据逐步分析结果

神奇吧，就是如此简单，我们用的都是入门级函数，稍微懂点R语言就能实现。

扫码，聊天框回复“B07”，查看原文，可以免费获取代码！

标签：