详细内容或原文请订阅后点击阅览
为什么非参数模型值得重新审视
了解非参数条件分布如何在不假设函数形式的情况下统一回归、分类和合成数据生成。文章《为什么非参数模型值得再看一遍》首先出现在《走向数据科学》上。
来源:走向数据科学并不总是得到应有的荣誉。像 k 最近邻 (k-NN) 和核密度估计器这样的方法有时被认为是简单或过时的,但它们的真正优势在于直接从数据估计条件关系,而不强加固定的函数形式。这种灵活性使它们具有可解释性和强大的功能,特别是当数据有限或我们想要整合领域知识时。
k在本文中,我将展示非参数方法如何为条件推理提供统一的基础,涵盖回归、分类,甚至合成数据生成。使用经典的 Iris 数据集作为运行示例,我将说明如何在实践中估计条件分布以及它们如何支持广泛的数据科学任务。
估计条件分布
关键思想很简单:我们不是只预测单个数字或类别标签,而是在给定一些其他信息的情况下估计变量的全部可能结果。换句话说,我们不只关注预期值,而是捕获类似条件下可能发生的结果的整个概率分布。
为此,我们查看接近我们感兴趣的情况的数据点;也就是说,那些在特征空间中的查询点附近具有调节变量的变量。每个点都会对估计做出贡献,其影响力按相似性加权:距离查询越近的点影响越大,而距离越远的点影响越小。通过汇总这些加权贡献,我们可以对目标变量在不同上下文中的行为进行平滑、数据驱动的估计。
这种方法使我们能够超越点预测,更丰富地理解数据中的不确定性、可变性和结构。
