实验一 模型评估与选择
一、 实验要求
1、理解过拟合与欠拟合的含义,会从偏差、方差的角度理解欠拟合和过拟合。
2、理解常见的模型评估方法的理论含义和方法,如留出法、交叉验证法、自助法以及模型的网格搜索和贝叶斯优化选择超参的方法,并要求会根据实际问题选择合适的方法,实现模型的选择和优化。
3、理解常见的性能度量方法,如混淆矩阵、查准率、查全率、F1、P-R曲线、AP、ROC曲线、AUC、代价曲线等,并会实践。
4、会使用skleran库提供的各种性能度量和模型评估方法,会自编写程序计算各种性能指标,并进行可视化。
二、 实验内容
已知数据集wine.csv(下载路径:http://archive.ics.uci.edu/ml/machine-learning-databases/wine/),该数据集共有13个特征属性,3个类别,class 1共59个样本,class2共71个样本,class3共48个样本,合计179个样本数据。其中特征属性含义如下:
1) Alcohol:酒精,2) Malic acid:苹果酸,3) Ash:灰分,4) Alcalinity of ash:灰分碱性,5) Magnesium:镁,6) Total phenols:总酚,7) Flavanoids:黄酮类,8) Nonflavanoid phenols:非挥发性酚类,9) Proanthocyanins:原花青素,10)Color intensity:颜色强度,11)Hue:色调,12)OD280/OD315 of diluted wines:稀释葡萄酒OD280/OD315,13)Proline:脯氨酸。
参考视频内容:https://www.bilibili.com/video/BV14p4y1h7ay,按要求完成如下实验内容:
1、网格搜索交叉验证法,分类算法自选;
2、贝叶斯优化调参和模型选择,自行选择三个分类算法并设置参数;
3、实现P-R曲线绘制和AP计算;
4、实现ROC曲线绘制和AUC计算;
5、自编程序实现各性能指标的计算,以及可视化。