实验二 线性回归与逻辑回归
一、 实验要求
1、深刻理解线性回归和逻辑回归的原理、权重系数的更新方法和模型评价方法。
2、理解梯度下降法的原理,会自编码实现随机、批量和小批量梯度下降法求解特征变量的系数,并进行可视化和结果的合理解释。
3、掌握正则化的三种方法,岭回归、LASSO回归和弹性网络回归,并会自编码实现。
4、掌握逻辑回归自编码实现的方法,并使用梯度下降法和正则化避免过拟合,会对数据集进行二分类和多分类。
5、会使用sklearn自带的函数库实现线性回归和逻辑回归,并会进行超参数的选择,包括交叉验证、网格搜索。
二、 实验内容
1、线性回归模型
已知数据集abalone.data,该数据集共有8个特征属性,Rings为因变量,共4177个样本。其样本特征属性的含义可参考网址中的信息说明(下载路径:http://archive.ics.uci.edu/ml/datasets/Abalone)。
完成如下实验内容:
(1) 阅读资料,列表解释各特征属性的含义。
(2) 三种梯度下降法建立线性回归模型:不考虑Sex属性,使用其他7个样本特征属性和Rings因变量。
(3) 选择一种梯度下降法,考虑三种正则化方法,建立线性回归模型。
(4) 使用sklearn库中自带的LinearRegression、Ridge、RidgeCV、Lasso、LassoCV、ElasticNet、ElasticNetCV建立线性回归模型,并进行超参数的选择。
(5) 对模型进行评价,对结果进行解释说明,对可视化绘图进行解释说明。
2、逻辑回归模型
阿维拉的数据集avila是从800张“阿维拉圣经”的图片中提取出来的,这是一本巨大的拉丁文版的整本圣经,产于十二世纪意大利和西班牙之间。对手稿的古文字分析使12位抄袭者的存在变得个性化。每个抄写员写的页数并不相等。(下载:http://archive.ics.uci.edu/ml/datasets/Avila)。特征属性描述如下:
F1 intercolumnar distance
F2 upper margin
F3 lower margin
F4 exploitation
F5 row number
F6 modular ratio
F7 interlinear spacing
F8 weight
F9 peak number
F10 modular ratio/ interlinear spacing
Class: A, B, C, D, E, F, G, H, I, W, X, Y
完成如下实验内容:
(1) 阅读资料,列表解释各特征属性的含义。
(2) 把训练集avila-tr.txt和测试集avila-ts.txt合并为一个数据集,从中筛选类别为E和F的两类数据,进行逻辑回归二分类。
(3) 选择类别为D、G、H、X和Y五个类别的数据,进行逻辑回归多分类,建立多分类回归模型。
(4) 各分类模型适当进行可视化、度量标准的衡量和结果的解释说明。