实验三决策树分类与回归模型

2021-05-10 23:21 作者:鸣凤在竹-白驹食场 0人读过 | 我要投稿

一、实验要求

1、掌握决策树创建的工作流程，深刻理解决策树划分节点属性的原理，如信息增益、信息增益率和基尼指数。

2、掌握后剪枝方法，掌握连续值和缺失值处理的方法。

3、掌握参数调优的方法，包括网格搜索，交叉验证，Hyperopt自动化超参数调优和学习曲线。

4、掌握决策树回归方法的原理和方法，会根据学习曲线判断模型的过拟合问题，会对特征属性进行特征选择。

1、决策树分类模型

（1）从网址（https://sci2s.ugr.es/keel/category.php?cat=clas）中下载数据集penbased.dat，该数据集共有10992个样本、16个属性和10个类别。

完成如下实验内容：

1) 使用sklearn库中的函数，建立决策树，对决策树最大深度进行调参，并绘制学习曲线，根据学习曲线选择最佳深度，并可视化决策树。

2) 网格搜索交叉验证，设置适当的参数，进行参数调优，给出最佳参数组合。

3) Hyperopt自动化超参数调优，选择最佳参数，并利用最佳参数训练最终模型。

4) 对模型进行评价，对结果进行解释说明，对可视化绘图进行解释说明。

（2）从网址（https://sci2s.ugr.es/keel/category.php?cat=clas）中下载数据集texture.dat，该数据集共有5500个样本、40个属性和11个类别；下载数据集newthyroid.dat，该数据集共215个样本，5个属性和3个类别。

1) 对texture.dat样本数据进行适当降维，分别选择累计贡献率90%、95%，并采用降维后的数据训练模型；

2) 对模型进行参数的适当调优，方法不限。

3) 对数据集newthyroid.dat降维为两个主成分，训练模型，对参数调优，并进行分类边界的绘制。

2、决策树回归模型

从网址（https://sci2s.ugr.es/keel/category.php?cat=reg）下载数据集concrete.dat，该数据集共有1030个样本，8个属性，因变量为ConcreteCompressiveStrength。

完成如下实验内容：

（1）使用sklearn库中的函数，建立回归决策树，根据学习曲线选择最佳深度，并可视化决策树。

（2）采用Hyperopt自动化超参数调优，选择最佳模型参数，并根据最佳参数训练模型。

（3）对模型的特征属性进行特征选择。

（4）各训练模型适当进行可视化、度量标准的衡量和结果的解释说明。

标签：