详细内容或原文请订阅后点击阅览
机器学习“降临节日历”第 4 天:Excel 中的 k-Means
如何实现最终看起来像“真正的”机器学习的训练算法机器学习“降临日历”第 4 天:Excel 中的 k-Means 帖子首先出现在走向数据科学上。
来源:走向数据科学4。
机器学习降临节日历在前三天,我们探索了基于距离的监督学习模型:
基于距离的模型在所有这些模型中,想法都是相同的:我们测量距离,并根据最近的点或最近的中心决定输出。
我们测量距离,并根据最近的点或最近的中心决定输出。今天,我们仍坚持同样的理念。但我们以无监督的方式使用距离:k-means。
k 均值现在,对于那些已经了解该算法的人来说,有一个问题:k-means 看起来更类似于 k-NN 分类器或最近质心分类器中的哪个模型?
k-means 看起来与 k-NN 分类器或最近质心分类器哪个模型更相似?如果您还记得的话,对于我们迄今为止看到的所有模型,并没有真正的“训练”阶段或超参数调整。
- 对于k-NN,根本没有训练。
- 对于 LDA、QDA 或 GNB,训练只是计算均值和方差。而且也没有真正的超参数。
现在,通过 k-means,我们将实现一种最终看起来像“真正的”机器学习的训练算法。
我们从一个微小的一维示例开始。然后我们转向二维。
k-means 的目标
在训练数据集中,没有初始标签。
无初始标签k-means 的目标是通过对彼此接近的点进行分组来创建有意义的标签。
创建让我们看下面的插图。您可以清楚地看到两组点。每个质心(红色方块和绿色方块)位于其簇的中间,每个点都分配给最近的一个。
这非常直观地展示了 k 均值如何仅使用距离来发现结构。
这里,k 表示我们试图找到的中心数。
现在,让我们回答这个问题:k-means 算法更接近 k-NN 分类器还是最近质心分类器?
k k-NN如果
