机器学习“降临节日历”第 2 天:Excel 中的 k-NN 分类器

探索 k-NN 分类器及其变体和改进机器学习“降临日历”第 2 天:Excel 中的 k-NN 分类器一文首先出现在《走向数据科学》上。

来源:走向数据科学

k-NN 回归器和基于距离的预测思想,我们现在看看 k-NN 分类器。

原理是相同的,但是分类允许我们引入几个有用的变体,例如半径最近邻、最近质心、多类预测和概率距离模型。

因此,我们将首先实现 k-NN 分类器,然后讨论如何改进它。

您可以在阅读本文时使用此 Excel/Google 工作表,以便更好地理解所有解释。

此 Excel/Google 工作表
Excel 中的 k-NN 分类器 – 作者提供的图片

泰坦尼克号生存数据集

我们将使用泰坦尼克号生存数据集,这是一个经典示例,其中每一行描述一名乘客的舱位、性别、年龄和票价等特征,目标是预测该乘客是否生还。

泰坦尼克号生存数据集 – 作者图像 – CC0:公共领域许可
CC0:公共领域

k-NN 分类原理

k-NN 分类器与 k-NN 回归器非常相似,我几乎可以写一篇文章来解释它们。

事实上,当我们寻找k个最近邻时,我们根本不使用值y,更不用说它的性质了。

k y 更不用说

但是,关于如何构建分类器(二元或多类)以及如何以不同方式处理功能,仍然存在一些有趣的事实。

我们从二元分类任务开始,然后是多类分类。

二元分类的一个连续特征

因此,很快,我们就可以使用这个数据集对一个连续特征进行相同的练习。

对于y的值,我们通常使用0和1来区分两类。但您可以注意到,或者您会注意到它可能会造成混乱。

Excel 中的 k-NN 分类器 – 一个连续特征 – 作者提供的图片

现在想一想:0和1也是数字,对吧?因此,我们可以执行与进行回归完全相同的过程。

Excel 中的 k-NN 分类器 – 预测一个连续特征 – 作者提供的图片
x

二元分类的两个特征

当 k 变得太大时