机器学习“降临节日历”第 4 天:Excel 中的 k-Means

如何实现最终看起来像“真正的”机器学习的训练算法机器学习“降临日历”第 4 天:Excel 中的 k-Means 帖子首先出现在走向数据科学上。

来源:走向数据科学

4。

机器学习降临节日历

在前三天,我们探索了基于距离的监督学习模型:

基于距离的模型

在所有这些模型中,想法都是相同的:我们测量距离,并根据最近的点或最近的中心决定输出。

我们测量距离,并根据最近的点或最近的中心决定输出。

今天,我们仍坚持同样的理念。但我们以无监督的方式使用距离:k-means。

k 均值

现在,对于那些已经了解该算法的人来说,有一个问题:k-means 看起来更类似于 k-NN 分类器或最近质心分类器中的哪个模型?

k-means 看起来与 k-NN 分类器或最近质心分类器哪个模型更相似?

如果您还记得的话,对于我们迄今为止看到的所有模型,并没有真正的“训练”阶段或超参数调整。

    对于k-NN,根本没有训练。
    对于 LDA、QDA 或 GNB,训练只是计算均值和方差。而且也没有真正的超参数。

现在,通过 k-means,我们将实现一种最终看起来像“真正的”机器学习的训练算法。

我们从一个微小的一维示例开始。然后我们转向二维。

k-means 的目标

在训练数据集中,没有初始标签。

无初始标签

k-means 的目标是通过对彼此接近的点进行分组来创建有意义的标签。

创建

让我们看下面的插图。您可以清楚地看到两组点。每个质心(红色方块和绿色方块)位于其簇的中间,每个点都分配给最近的一个。

这非常直观地展示了 k 均值如何仅使用距离来发现结构。

这里,k 表示我们试图找到的中心数。

Excel 中的 k-means – 作者提供的图片

现在,让我们回答这个问题:k-means 算法更接近 k-NN 分类器还是最近质心分类器?

k k-NN
  • 在k-means中,k是质心的数量。
  • 质心 知道 如果