详细内容或原文请订阅后点击阅览
机器学习“降临日历”第 21 天:Excel 中的梯度提升决策树回归器
带有决策树的函数空间中的梯度下降机器学习“降临日历”第 21 天:Excel 中的梯度提升决策树回归器首先出现在走向数据科学上。
来源:走向数据科学上一篇文章,我们通过Gradient Boosted Linear Regression介绍了Gradient Boosting的核心机制。
这个例子故意简单。它的目标不是性能,而是理解。
使用线性模型使我们能够明确每一步:残差、更新和模型的相加性质。它还使梯度下降的联系变得非常清晰。
在本文中,我们将讨论梯度提升在实践中真正有用的设置:决策树回归器。
我们将重用与以前相同的概念框架,但算法的行为发生了重要的变化。与线性模型不同,决策树是非线性且分段常数的。当它们通过梯度提升组合在一起时,它们不再塌陷为单个模型。相反,每棵新树都会增加结构并完善先前树的预测。
因此,我们将仅简要回顾一下一般的梯度提升机制,而重点关注梯度提升决策树的具体内容:树如何根据残差进行训练,集成如何演化,以及为什么这种方法如此强大。
1. 机器学习三步走
我们将再次使用相同的三步框架来保持解释的一致性和直观性。
1. 基础模型
我们将使用决策树回归器作为我们的基本模型。
决策树的构造是非线性的。它将特征空间分割成多个区域,并为每个区域分配一个恒定的预测。
重要的一点是,当树添加在一起时,它们不会折叠成一棵树。
每棵新树都会为模型引入额外的结构。
这就是梯度提升变得特别强大的地方。
1之二。集成模型
梯度提升是用于将这些基础模型聚合成单个预测模型的机制。
2.模型拟合
为了清楚起见,我们将使用决策树桩,这意味着深度为 1 且只有一个分割的树。
每棵树都经过训练来预测先前模型的残差。
模型更新