03-机器学习-决策树-Decision Tree

2023-03-05 18:22 作者:三哥的平凡生活 0人读过 | 我要投稿

决策树：

决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

构建树的原则

我们构建一棵决策树的基本想法就是，我们希望决策树每个叶子节点包含的样本尽可能属于同一个类别，即结点的“纯度”越来越高

决策树划分选择的方法

根据构建树的原则来看，即使得每个结点的纯度尽可能小，那么我们需要一些指标评价“纯度”这个概念。信息熵和基尼指数是两个常用的指标。

决策树算法

1、熵(Entropy)

信息熵(information entropy)是度量样本集合纯度的常用指标；

在信息论与概率统计中，熵是表示随机变量不确定性的度，熵越大，随机变量的不确定性就越大，反之则不确定性越小；

假定当前样本集合D中第k类样本所占的比例为 pk(k=1,2,…,|Y|) ,则D的信息熵为:

Ent(D)的值越小，D的纯度越高(约定：若p=0则plog2p=0)

数据集：

2、信息增益(Information Gain)

一般而言，信息增益越大，则意味着用属性a来进行划分所获得的纯度提升越大：

ID3就是以信息增益为准则来选择划分属性的

举例：

3、增益率

实际上，信息增益对可取值数目较多的属性有所偏好(如编号，在西瓜集中若以编号为划分属性，则其信息增益最大)，为减少由于偏好而带来的不利影响，C4.5算法使用增益率(gain ratio)来选择最优划分属性:

其中：

称为属性a的固有值(intrinsic value),属性a的可能数目越多，则IV(a)的值通常越大

信息增益率准则对可取值数目较少的属性有所偏好，
C4.5采用的是先从候选划分属性中寻找出信息增益率最高的属性

举例：

4、基尼指数（Gini Index）

CART(Classification and Regression Tree)使用基尼指数(Gini index)来选择划分属性，数据集的纯度可用基尼值来度量

属性a的基尼指数定义为：

在属性集合A中寻找:

CART决策树使用基尼指数作为属性划分的标准

我们使用色泽属性进行举例，计算此时的基尼指数：

5、剪枝处理

剪枝(pruning)是决策树学习算法对付过拟合的主要手段，基本策略有预剪枝(prepruning)和后剪枝(post-pruning)

预剪枝：在决策树的生成过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来泛化性能提升则停止划分
后剪枝：先生成一个完整的树，然后自底向上对非叶节点考察，若将该节点对应的子数替换为叶节点能提升泛化性能则替换

5.1 预剪枝

预剪枝的关键在于是否继续进行划分：

在上面的西瓜的例子当中，在划分前，我们将其类别标记为训练样例最多的类别“好瓜”。那么在验证集用“脐部”这个结点进行划分，则编号{4,5,8}被划分正确，其划分进度为 3/7*100%=42.9%
如果我们使用“脐部”进行划分,那么图中②、③和⑥分别包含编号为{1 ， 2 ， 3 ， 14} 、{6 ， 7 ， 15 ， 17} 和{10 ， 16} 的训练样例,
因此这3个结点分别被标记为叶结点“好瓜”、"好瓜"、"坏瓜"（按其训练样例最多类别归属），此时，验证集中编号为{4 ， 5 ， 8 ，11， 12} 的样例被分类正确，验证集精度为5/7 x 100% = 71.4% > 42.9%。于是，用"脐部"进行划分得以确定。

预剪枝使决策树的很多分支都没有展开，不仅降低了过拟合的风险，还显著减少了训练时间和测试时间，但是可能会引起过拟合