李航《统计学习方法》书训练营(含无监督学习部分)
02 几种集成方法
学习了那么多经典的分类算法,我们会发现,算法有各自的优势和缺点;处理了那么多数据,我们会发现,数据有好坏均衡之分;那么你有没有想过,将不同的分类器、不同的数据集择优训练,结合得到一个更好的分类器呢?
这就是集成方法,集成方法有这样几种思路:
不同基本分类器的集成
同一基本分类器在不同参数设置下的集成
数据集不同部分分配给不同或相同基本分类器后的集成(Bagging(相同分类器时))
同一数据集不同权值分配给同一基本分类器的集成(Boosting)
其中第三种思路,数据集不同部分分配给相同基本分类器后的集成,叫做自举汇聚法(Bootstrap Aggregating),即Bagging;第四种思路,同一数据集不同权值分配给同一基本分类器的集成叫提升方法,即Boosting,也是本文的重点。