机器学习“降临日历”第 7 天:决策树分类器

在第 6 天,我们看到了决策树回归器如何通过最小化均方误差来找到最佳分割。今天,在机器学习“降临日历”的第 7 天,我们切换到分类。只需一个数值特征和两个类别,我们就可以探索决策树分类器如何使用基尼和熵等杂质度量来决定在哪里切割数据。即使不进行数学计算,我们也可以直观地猜测可能的分割点。但哪一个最好呢?杂质测量真的会产生影响吗?让我们在 Excel 中逐步构建第一个分割,看看会发生什么。机器学习“降临日历”第 7 天:决策树分类器一文首先出现在《走向数据科学》上。

来源:走向数据科学

,我们探讨了决策树回归器如何通过最小化均方误差 (MSE) 来选择最佳分割。

决策树回归器 均方误差 (MSE)

今天是机器学习“降临日历”的第 7 天,我们继续采用相同的方法,但使用了决策树分类器,这是昨天模型的分类对应物。

机器学习“降临节日历” 决策树分类器

使用两个简单数据集进行快速直觉实验

让我们从我生成的一个非常小的玩具数据集开始,其中包含一个数值特征和一个具有两个类别的目标变量:0 和 1。

这个想法是根据一个规则将数据集分成两部分。但问题是:这个规则应该是什么?告诉我们哪种分割更好的标准是什么?

这个规则应该是什么?

现在,即使我们还不知道数学,我们也可以查看数据并猜测可能的分裂点。

从视觉上看,应该是 8 或 12,对吧?

8 12

但问题是哪个在数值上更合适。

Excel 中的决策树分类器 – 作者提供的图片

如果我们直观地思考:

    在 8 处分割:左侧:无误分类右侧:1 个误分类在 12 处分割:右侧:无误分类左侧:2 个误分类
  • 在 8 处分割:左侧:无误分类右侧:1 个误分类
    • 左侧:无误分类右侧:1 个误分类
  • 左侧:没有错误分类
  • 右侧:一处错误分类
  • 在 12 处分割:右侧:没有误分类左侧:有两个误分类
    • 右侧:没有错误分类左侧:有两个错误分类
  • 右侧:没有错误分类
  • 左侧:两个错误分类
  • 很明显,8 点的分割感觉更好。

    现在,让我们看一个包含三个类的示例。我添加了一些更多的随机数据,并创建了 3 个类。

    三个类

    在这里,我将它们标记为 0、1、3,并垂直绘制它们。

    0, 1, 3 只是类别名称

    所以直觉总是:分割后每个区域的同质性如何?

    平均值 MSE 多数类别