[吃瓜笔记]第8章
第8章 集成学习
《机器学习》作者周志华老师是集成学习大牛!
8.1 个体与集成
集成学习就是把多个个体学习器(基学习器)的结果集成起来。
既然是集成多个学习器的结果,那自然想让集成学习的结果比基学习器强,那么基学习器需要满足两个条件:
得是“弱学习器”,就是比随机猜强一点,但是不是很强;(要好,但不多)
基学习器之间要有差异性。
集成学习分为两大类,一类是串行训练的,另一类是并行训练的。
8.2 Boosting
Boosting是串行训练的代表。
就是它的多个基学习器是有先后关系的,必须一个训练完后再训练下一个,因为它们是前后相关的。
代表算法是Adaboost,它只能用于二分类任务,难以推广到多分类任务和回归任务中。
8.3 Bagging与随机森林
它们是并行训练的代表。
Bagging对生成器差异性采取的策略是样本随机。它采用的是自助采样法。自主采样还可以让Bagging进行包外估计。
随机森林对(d是属性个数)。
从个人做过的项目看来,随机森林yyds。RF真的太强啦!不仅强,还很快!
8.4 结合策略
平均法→分类任务
加权法→投票法
学习法:Stacking,我的理解就是把两种学习器堆叠起来,类似StackGAN这种。还有我之前做过的CNN+RF等。
补充知识
来自第8章-集成学习(下)_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1Mh411e7VU?p=13&vd_source=bcbba846b187e13b732c247c1d182351
Adaboost是Gradient Boosting的特殊形式。
GBDT以CART为基学习器,属于Gradient Boosting。GBDT可以用于分类和回归任务,其损失不同于Adaboost。

8.5、8.6略。