机器学习“降临节日历”第 3 天:Excel 中的 GNB、LDA 和 QDA

从局部距离到全局概率机器学习“降临日历”第 3 天:Excel 中的 GNB、LDA 和 QDA 帖子首先出现在走向数据科学上。

来源:走向数据科学

使用 k-NN(k-NN 回归器和 k-NN 分类器),我们知道 k-NN 方法非常简单。它将整个训练数据集保留在内存中,依赖于原始距离,并且不从数据中学习任何结构。

k-NN 回归器 k-NN 分类器

我们已经开始改进 k-NN 分类器,在今天的文章中,我们将实现这些不同的模型:

    GNB:高斯朴素贝叶斯LDA:线性判别分析QDA:二次判别分析
  • GNB:高斯朴素贝叶斯
  • LDA:线性判别分析
  • QDA:二次判别分析
  • 对于所有这些模型,分布被视为高斯分布。所以最后,我们还将看到一种获得更加定制化的发行版的方法。

    如果您阅读了我之前的文章,这里有一些问题要问您:

      LDA 和 QDA 之间有什么关系?GBN 和 QDA 之间有什么关系?如果数据根本不是高斯分布会发生什么?获得自定义分布的方法是什么?LDA 中的线性是什么? QDA 中的二次方是什么?
  • LDA和QDA有什么关系?
  • GBN和QDA有什么关系?
  • 如果数据根本不是高斯分布会怎样?
  • 获得定制发行版的方法是什么?
  • LDA 中什么是线性的? QDA 中的二次方是什么?
  • 阅读文章时,您可以使用此 Excel/Google 表格。

    此 Excel/Google 工作表
    Excel 中的 GNB、LDA 和 QDA – 作者提供的图片

    最近的质心:这个模型到底是什么

    让我们快速回顾一下昨天已经开始的事情。

    昨天已经开始

    我们引入了一个简单的想法:当我们计算类内每个连续特征的平均值时,该类会折叠成一个代表点。

    这为我们提供了最近质心模型。

    每个类都由其质心(其所有特征值的平均值)来概括。

    现在,让我们从机器学习的角度来思考这个问题。我们通常将过程分为两部分:训练步骤和超参数调整步骤。

    训练 超参数调整 规模重要吗?