实验三 决策树分类与回归模型
一、 实验要求
1、掌握决策树创建的工作流程,深刻理解决策树划分节点属性的原理,如信息增益、信息增益率和基尼指数。
2、掌握后剪枝方法,掌握连续值和缺失值处理的方法。
3、掌握参数调优的方法,包括网格搜索,交叉验证,Hyperopt自动化超参数调优和学习曲线。
4、掌握决策树回归方法的原理和方法,会根据学习曲线判断模型的过拟合问题,会对特征属性进行特征选择。
二、 实验内容
1、决策树分类模型
(1)从网址(https://sci2s.ugr.es/keel/category.php?cat=clas)中下载数据集penbased.dat,该数据集共有10992个样本、16个属性和10个类别。
完成如下实验内容:
1) 使用sklearn库中的函数,建立决策树,对决策树最大深度进行调参,并绘制学习曲线,根据学习曲线选择最佳深度,并可视化决策树。
2) 网格搜索交叉验证,设置适当的参数,进行参数调优,给出最佳参数组合。
3) Hyperopt自动化超参数调优,选择最佳参数,并利用最佳参数训练最终模型。
4) 对模型进行评价,对结果进行解释说明,对可视化绘图进行解释说明。
(2)从网址(https://sci2s.ugr.es/keel/category.php?cat=clas)中下载数据集texture.dat,该数据集共有5500个样本、40个属性和11个类别;下载数据集newthyroid.dat,该数据集共215个样本,5个属性和3个类别。
1) 对texture.dat样本数据进行适当降维,分别选择累计贡献率90%、95%,并采用降维后的数据训练模型;
2) 对模型进行参数的适当调优,方法不限。
3) 对数据集newthyroid.dat降维为两个主成分,训练模型,对参数调优,并进行分类边界的绘制。
2、决策树回归模型
从网址(https://sci2s.ugr.es/keel/category.php?cat=reg)下载数据集concrete.dat,该数据集共有1030个样本,8个属性,因变量为ConcreteCompressiveStrength。
完成如下实验内容:
(1) 使用sklearn库中的函数,建立回归决策树,根据学习曲线选择最佳深度,并可视化决策树。
(2) 采用Hyperopt自动化超参数调优,选择最佳模型参数,并根据最佳参数训练模型。
(3) 对模型的特征属性进行特征选择。
(4) 各训练模型适当进行可视化、度量标准的衡量和结果的解释说明。