欢迎光临散文网会员登陆 & 注册

吹爆！周志华大佬亲授《机器学习》（西瓜书)!讲的通俗易懂，小白也能轻松理解！49

2023-06-11 14:07 作者:天国12345 0人读过 | 我要投稿

奥卡姆剃刀：若非必要，勿增实体。（多个模型都能很好的表现时，用最简单的）

没有完美的解决方案解决过拟合问题

性能度量：不同的方案需要不同的性能度量方法，

例如：在欺诈案件中，一万次中又一次时欺诈

如果按普通方式评估，一万次都没有欺诈，虽然准确率是99.999，但是却检测不出来欺诈

留一法：将测试集每个样本为子集，每次的测试集为一个样本，训练集为m-1，进行m次训练。

缺点：训练数据发生变化

验证集：训练集中专门流出的部分用来调节参数的

注意：调节参数的部分需要来源于训练数据集中

16. 16. 16.线性回归 P16 - 00:17

最小二乘法：

最小二乘法，让偏导=0的原因是，线性回归中偏导等于0时只会出现最小值的情况，因为误差距离不会存在最大值时的偏导=0.（不存在无穷远）

似然函数的思路就是：

求最大值 Max( p(真是+）p(预测为+）+p(真是-）p(预测为-））

过采样：在已经有的小样本中间插值，不使用复制（如果对错误样本进行复制，可能会增加噪声）

SMOTE: (nitech chawla) 插值法

欠采样：丢掉一些大类中的样本。，通常采用的方法是，多次随机抽取同小类数量一样多的数据，多次顺利得出模型 (问题，可能会丢掉重要的样本，让模型不正确）

信息增益：直接以信息熵为基础，计算当前划分对信息熵所造成的变化

从上图中看到，各种属性的信息增益中，纹理的信息增益最大，所以该节点选择使用纹理属性作为分类标准

信息增益偏好了分支多的属性，所以会出现不利的情况，需要改进ID3算法。

C45

25. 25. 25.其他属性划分准则 P25 - 00:58

增益率：表示的是让信息增益Gain(D,a)越大越好，Iv(a)分支数量越少越好，取折中

但是分支不能只用Gain_ration()的值来判断，因为当Iv(a)值很小（分支很少）增益率也很小，但是增益率却很大的情况也会有，所以使用启发式=》

增益率实际上起到了一个规范化（normolization)的作用。把原来不可比较的东西变得可以比较。

归一化：把数值改到（0，1）之间

CART决策树：

以二分类为例，思想是：从D中随机抽取两个样本，pk为抽取到k的概率pk的平方为两次都抽取到同一个类型的概率， 1- pk2 就是不同类的概率，让1-pk2值越小样本就越纯。

剪枝（pruning): 将有些分支丢弃不要

剪枝方法对决策树泛化性能的影响更为显著

缺失值的划分思虑：样本赋权，权重划分

上图 - 的都是缺失值，如果都丢弃，则样本数就很少

解决办法：将样本增加权重

支持向量机：

求解办法：

高维向量的内积计算量大，所以采用一种方法代替向量x的内积计算，所以设计了一个核函数

核函数作用：低维空间的计算结果，等于高维空间中的内积

核函数本质是找到高位空间中点的距离矩阵

32. 32. 32.核函数 P31 - 05:19

33. 33. 33.如何使用SVM？ P32 - 00:11

使用SVM做回归问题：

让点在红色之间的值不计算损失，红色区块以外的点计算损失，计算最小损失。

34. 34. 34.神经网络模型 P33 - 00:15

f : 激活函数 Activation function

f(x) =sigmoid 函数，

则有： f'(x)=f(x) (1- f(x)) //表示为正负几率的乘积

37. 37. 37.贝叶斯决策论 P36 - 00:24

P（Cj | x) : 样本中产生Cj的概率

贝叶斯判定准则，就是选择最小的损失。

：问题所以，P(Cj | x) 是整体样本的概率，事先无法得到

判别式网络：就是判定类别的，给个点将它们分开P(c | x)

频率主义：通常做的是一个点估计，假设样本是符合某个概率分布，然后估计出概率公式中参数的值，（点估计）

比如：假设样本输入高斯分布，-》需要做的是找出高斯分布中均值和方差的值

贝叶斯主义：思想是，样本的高斯分布中的参数也是属于一种分布，而不是固定的某个值，要做的是找高斯分布中参数的分布，（分布估计）

贝叶斯分类器：条件只要是一种生成式模型，并且使用贝叶斯公式

贝叶斯学习：是一种分布估计

40. 40. 40.极大似然估计 P39 - 00:25

极大似然估计：就是利用训练集D，找到参数值，，

目的是找出一个参数值，使得它分布中得出的x的样本与训练集中D样本最一直，即，概率最大化

极大似然法是找出参数的值，是频率注意中的点估计

41. 41. 41.朴素贝叶斯分类器 P40 - 00:15

：上面：< Dc,xi> =》假如 Dc 表示好瓜的样本集合，Xi 就是每个样本中的第i个特征，比如西瓜的颜色

42. 42. 42.集成学习 P41 - 00:31

好的集成，需要多个模型结合，并且单一的模型的准确度也不能太低，而且单一模型之间的要有差异性

data set2的数据集是data set1的采用，重点选取Learner1中判断错误的样本放在data set 2 中，然后让learner2学习data set2中的样本集，以此往后推，得到T个模型，然后对T个模型进行加权求和，每个模型都有一个权重（这是一个序列化集成方法，因为越到后面，解决的问题越难，所以需要为模型增加权重）

bagging是并行化方法，

使用boostrap sampling获取多个数据集，然后将多个模型得到的结果进行求平均

bagging 的改进版本就是随机森林。

48. 48. 48.聚类 P47 - 00:20

原型聚类：只能找出椭圆型的聚类

标签：

吹爆！周志华大佬亲授《机器学习》（西瓜书)!讲的通俗易懂，小白也能轻松理解！49的评论 (共条)