XGBoost feature importance特征重要性-实战印第安人糖尿病数据集

2021-08-24 10:48 作者:python风控模型 0人读过 | 我要投稿

使用梯度提升之类的决策树方法集成的一个好处是，它们可以从训练有素的预测模型中自动提供特征重要性的估计。

在这篇文章中，您将了解如何使用 Python 中的 XGBoost 库估计特征对预测建模问题的重要性。

看完这篇文章你会知道：

如何使用梯度提升算法计算特征重要性。
如何在 Python 中绘制 XGBoost 模型计算的特征重要性。
如何使用 XGBoost 计算的特征重要性进行特征选择。

梯度提升中的特征重要性

使用梯度提升的一个好处是，在构建提升树之后，检索每个属性的重要性分数相对简单。

通常，重要性提供一个分数，表明每个特征在构建模型内的增强决策树中的有用性或价值。使用决策树做出关键决策的属性越多，其相对重要性就越高。

为数据集中的每个属性明确计算此重要性，允许对属性进行排名和相互比较。

单个决策树的重要性是通过每个属性分割点改进性能度量的量计算的，由节点负责的观察数加权。性能度量可以是用于选择分割点的纯度（基尼指数）或另一个更具体的误差函数。

然后对模型内所有决策树的特征重要性进行平均。

手动绘制特征重要性

经过训练的 XGBoost 模型会自动计算预测建模问题的特征重要性。

这些重要性分数在训练模型的feature_importances_成员变量中可用。例如，它们可以直接输出如下：

我们可以直接在条形图上绘制这些分数，以直观地表示数据集中每个特征的相对重要性。例如：

我们可以通过在皮马印第安人糖尿病数据集上训练 XGBoost 模型并根据计算出的特征重要性创建条形图来证明这一点。

下载数据集链接：

https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv

数据说明

注意：程序运行的结果可能会因算法或评估程序的随机性或数值精度的差异而有所不同。考虑多次运行该示例并比较平均结果。

运行此示例首先输出重要性分数。

[ 0.089701 0.17109634 0.08139535 0.04651163 0.10465116 0.2026578 0.1627907 0.14119601]

我们还得到了一个相对重要性的条形图。

这个图的一个缺点是特征是按输入索引而不是重要性排序的。我们可以在绘图之前对特征进行排序。

值得庆幸的是，有一个内置的绘图功能可以帮助我们。

使用内置的 XGBoost 特征重要性图

XGBoost 库提供了一个内置函数来绘制按重要性排序的特征。

该函数称为plot_importance()并且可以按如下方式使用：

例如，下面是一个完整的代码清单，它使用内置的plot_importance()函数绘制了皮马印第安人数据集的特征重要性。

注意：程序的结果可能会因算法或评估程序的随机性或数值精度的差异而有所不同。考虑多次运行该示例并比较平均结果。

运行该示例为我们提供了一个更有用的条形图。

您可以看到，要素是根据它们在输入数组 (X) 中的索引（从 F0 到 F7）自动命名的。

手动将这些指数映射到问题描述中的名称，我们可以看到图中显示 F5（体重指数）的重要性最高，而 F3（皮褶厚度）的重要性最低。

使用 XGBoost 特征重要性评分的特征选择

特征重要性分数可用于 scikit-learn 中的特征选择。

这是使用SelectFromModel类完成的，该类采用模型并将数据集转换为具有选定特征的子集。

此类可以采用预先训练的模型，例如在整个训练数据集上训练的模型。然后它可以使用阈值来决定选择哪些特征。当您在SelectFromModel实例上调用transform()方法以一致地选择训练数据集和测试数据集上的相同特征时，将使用此阈值。

在下面的示例中，我们首先训练，然后分别在整个训练数据集和测试数据集上评估 XGBoost 模型。

使用从训练数据集计算出的特征重要性，然后我们将模型包装在 SelectFromModel 实例中。我们使用它来选择训练数据集上的特征，从选定的特征子集中训练模型，然后在测试集上评估模型，遵循相同的特征选择方案。

例如：

出于兴趣，我们可以测试多个阈值以通过特征重要性选择特征。具体来说，每个输入变量的特征重要性，本质上允许我们按重要性测试每个特征子集，从所有特征开始，以具有最重要特征的子集结束。

下面提供了完整的代码清单。

请注意，如果您使用的是 XGBoost 1.0.2（可能还有其他版本），则 XGBClassifier 类中存在导致错误的错误：

KeyError: 'weight'

这可以通过使用自定义XGBClassifier类来修复，该类为coef_属性返回None。

下面列出了完整的示例。

运行此示例将打印以下输出。

Accuracy: 77.95% Thresh=0.071, n=8, Accuracy: 77.95% Thresh=0.073, n=7, Accuracy: 76.38% Thresh=0.084, n=6, Accuracy: 77.56% Thresh=0.090, n=5, Accuracy: 76.38% Thresh=0.128, n=4, Accuracy: 76.38% Thresh=0.160, n=3, Accuracy: 74.80% Thresh=0.186, n=2, Accuracy: 71.65% Thresh=0.208, n=1, Accuracy: 63.78%

我们可以看到模型的性能通常随着所选特征的数量而下降。但有时候踢除一些噪音变量后，模型性能反而会提升。我建议模型仅保留有效变量，踢除无用变量。

在这个问题上，需要权衡特征与测试集的准确度，我们可以决定采用一个不太复杂的模型（更少的属性，例如 n=4），并接受估计准确度从 77.95% 下降到 76.38% 的适度下降。

这可能是对如此小的数据集的一种清洗，但对于更大的数据集并使用交叉验证作为模型评估方案可能是更有用的策略。

总结

在这篇博文中，您了解了如何在经过训练的 XGBoost 梯度提升模型中访问特征和使用重要性。

具体来说，你学到了：

特征重要性是什么以及在 XGBoost 中通常是如何计算的。
如何从 XGBoost 模型访问和绘制特征重要性分数。
如何使用 XGBoost 模型中的特征重要性进行特征选择。

xgboost特征重要性就为大家讲解到这里，欢迎各位同学学习《python机器学习-糖尿病数据挖掘》学习更多相关知识

标签：

XGBoost feature importance特征重要性-实战印第安人糖尿病数据集

梯度提升中的特征重要性

手动绘制特征重要性

使用内置的 XGBoost 特征重要性图

使用 XGBoost 特征重要性评分的特征选择

总结