机器学习“降临日历”第六天:决策树回归器

在机器学习降临节日历的第一天,我们探索了基于距离的模型。今天,我们转向一种完全不同的学习方式:决策树。通过一个简单的单特征数据集,我们可以看到树如何选择其第一次分裂。这个想法总是一样的:如果人类可以直观地猜出分割,那么我们可以在 Excel 中逐步重建逻辑。通过列出所有可能的分割值并计算每个分割值的 MSE,我们可以识别出最能减少误差的分割。这让我们对决策树如何生长、如何进行预测以及为什么第一次分割如此关键的步骤有一个清晰的直觉。机器学习“降临日历”第 6 天:决策树回归器首先出现在《走向数据科学》上。

来源:走向数据科学

在这个机器学习“降临日历”的 5 天里,我们探索了 5 个基于距离(局部欧几里得距离,或全局马哈拉诺比斯距离)的模型(或算法)。

机器学习“降临节日历”

所以是时候改变方法了,对吗?稍后我们将回到距离的概念。

今天,我们将看到完全不同的东西:决策树!

Excel 中的决策树回归器 - 作者提供的图片

简单数据集简介

让我们使用一个只有一个连续特征的简单数据集。

一如既往,我们的想法是您可以自己可视化结果。然后你必须考虑如何让计算机做到这一点。

Excel 简单数据集中的决策树回归(我自己生成) — 作者图片

我们可以直观地猜测,对于第一次分割,有两个可能的值,一个在 5.5 左右,另一个在 12 左右。

现在的问题是,我们选择哪一个?

这正是我们要找出的内容:如何使用 Excel 中的实现来确定第一个分割的值?

一旦我们确定了第一个分割的值,我们就可以对后续分割应用相同的过程。

这就是为什么我们只在 Excel 中实现第一次分割。

决策树回归器的算法原理

我写了一篇文章,始终区分机器学习的三个步骤,以便有效地学习它,让我们将原理应用到决策树回归器中。

一篇文章,始终区分机器学习的三个步骤,以有效地学习它

因此,我们第一次拥有了一个“真正的”机器学习模型,这三个模型的步骤都非常重要。

型号是什么?

这里的模型是一组规则,用于对数据集进行分区,并且为每个分区分配一个值。哪一个?同一组中所有观测值的平均值 y。

模型拟合或训练过程

生成树包括将输入数据递归地划分为越来越小的块或区域。对于每个区域,可以计算预测。

最佳分割

这里