机器学习“降临节日历”第一天:Excel 中的 k-NN 回归器

降临节日历的第一天介绍了 k-NN 回归器,这是最简单的基于距离的模型。使用 Excel,我们探讨了预测如何完全依赖于最接近的观测值、为什么特征缩放很重要,以及异构变量如何使距离变得毫无意义。通过具有连续和分类特征的示例(包括加州住房和钻石数据集),我们看到了 k-NN 的优点和局限性,以及为什么定义正确的距离对于反映现实世界的结构至关重要。机器学习“降临日历”第一天:Excel 中的 k-NN 回归器一文首先出现在《走向数据科学》上。

来源:走向数据科学

到 Excel 中的机器学习和深度学习的“降临日历”。

Excel 中机器学习和深度学习的“降临日历”

第 1 天,我们从 k-NN(k 最近邻)回归算法开始。正如您将看到的,这确实是最简单的模型,也是一个很好的开始方式。

对于那些已经了解该模型的人,这里有一些问题要问您。希望它们能让您想继续阅读。还有一些传统课程中没有教授的微妙课程。

    连续特征的缩放对于该模型重要吗?如何处理分类特征?应该对连续特征做什么以提高模型性能?在某些情况下哪些类型的距离度量更适合?例如,在预测房价时,地理位置很重要?
  • 连续特征的缩放对于该模型重要吗?
  • 如何处理分类特征?
  • 应该如何处理连续特征来提高模型性能?
  • 在某些情况下,哪些类型的距离测量更适合?例如,在预测房价时,地理位置很重要?
  • 剧透:使用简单的 k-NN,您无法自动获得理想的缩放。

    剧透:

    如果您不熟悉 Excel 公式,这也是一个使用 RANK、IF、SUMPRODUCT 等公式以及其他有用的 Excel 函数的机会。

    您可以使用此链接获取 Excel/Google Sheet 文件,我的建议是您按照本文进行操作,并对文件进行一些测试以更好地理解。

    此链接
    Excel 中的 k-NN 回归器 - 作者提供的图片

    k-NN原理

    如果您想出售或购买一套公寓,您会如何估算价格?

    请考虑一种非常现实的方法,而不是一些需要花费数小时来构建的复杂模型。

    一些你可以真正做的事情。

    嗯,您可能会询问您的邻居是否拥有相同或相似大小的公寓。然后你计算这些公寓的平均值。

    如果