机器学习“降临节日历”第 15 天:Excel 中的 SVM

本文不是从边距和几何形状开始,而是从熟悉的模型逐步构建支持向量机。通过改变损失函数并重新使用正则化,SVM 自然地表现为经过优化训练的线性分类器。这种观点将逻辑回归、SVM 和其他线性模型统一到一个单一的、连贯的框架中。机器学习“降临日历”第 15 天:Excel 中的 SVM 帖子首先出现在走向数据科学上。

来源:走向数据科学

我们是。

这个模型从一开始就激励我使用 Excel 来更好地理解机器学习。

今天,您将看到与通常看到的不同的 SVM 解释,其中包含:

  • 边距分隔符,
  • 到超平面的距离,
  • 首先是几何构造。
  • 相反,我们将从我们已知的事情开始逐步构建模型。

    所以也许这也是你终于说“哦,我现在明白多了”的那一天。

    在我们已知的基础上构建新模型

    我的主要学习原则之一很简单:

    总是从我们已经知道的开始。

    在SVM之前,我们已经学习过:

  • 逻辑回归,
  • 惩罚和正规化。
  • 今天我们将使用这些模型和概念。

    这个想法不是引入一种新模式,而是改造现有模式。

    训练数据集和标签约定

    我们将使用单特征数据集来解释 SVM。

    是的,我知道,这可能是你第一次看到有人只使用一个功能来解释 SVM。

    为什么不呢?

    事实上,这是必要的,原因有几个。

    对于其他模型,例如线性回归或逻辑回归,我们通常从单个特征开始。我们应该对 SVM 做同样的事情,这样我们就可以正确地比较模型。

    如果你构建了一个具有许多特征的模型,并且认为你了解它是如何工作的,但你无法仅用一个特征来解释它,那么你还没有真正理解它。

    使用单个特征构建模型:

  • 更容易实现,
  • 更容易可视化,
  • 并且更容易调试。
  • 因此,我们使用我生成的两个数据集来说明线性分类器可能面临的两种可能情况:

  • 一个数据集是完全可分离的
  • 另一个不可完全分离
  • 你可能已经知道为什么我们使用这两个数据集,而我们只使用一个,对吧?

    我们还使用标签 convention-1 和 1 来代替 0 和 1。

    为什么?稍后我们会看到,这实际上是一段有趣的历史,关于如何从 GLM 和机器学习的角度看待模型。

  • 正值对应一类,
  • 边距,