决策树模型--回归树和模型树在wine数据上的简单应用


与传统的回归相比,决策树可能更适合于具有许多特征或特征和结果之间存在许多复杂非线性关系的任务。
这些情况给回归模型的工作思路带来了挑战,而且回归建模还对数据的分布方式进行了假设,这些假设在现实世界的数据中经常被挑战。树模型的情况往往并非如此。
用于数字预测的树分为两类。
第一种被称为回归树,是在20世纪80年代作为开创性的分类和回归树(CART)算法的一部分引入的。尽管有这个名字,回归树并不使用线性回归方法,而是根据预测结果的“每一片叶子”平均值进行工作。
用于数值预测的第二类树被称为模型树。它们比回归树晚几年推出,虽然鲜为人知,但可能更强大。模型树的生长方式与回归树大致相同,但在每一片叶子上,都会根据到达该节点的示例构建一个多元线性回归模型。根据叶节点的数量,模型树可以构建数十个甚至数百个这样的模型。这可能会使模型树比等效的回归树更难理解,其好处是可以产生更准确的模型。
这里我们来简单探索一些回归树和模型树的模型。





现在我们使用RWeka包中的M5P函数来构建模型树。如果您首先使用的是MAC,需要先安装 JDK、rJava和RWekajars,然后才能安装RWeka。RWeka在OS X上的R有很多问题。最终还是使用了Cubist软件包。

本文使用 文章同步助手 同步