机器学习“降临日历”第 12 天:Excel 中的逻辑回归

在本文中,我们直接在 Excel 中一步步重建逻辑回归。从二进制数据集开始,我们探讨线性回归作为分类器为何举步维艰,逻辑函数如何解决这些问题,以及对数损失如何自然地从似然中出现。借助透明的梯度下降表,您可以在每次迭代中观察模型的学习情况,从而使整个过程直观、直观且令人惊讶地令人满意。机器学习“降临日历”第 12 天:Excel 中的逻辑回归首先出现在走向数据科学。

来源:走向数据科学

今天的模型是逻辑回归。

如果您已经知道这个模型,这里有一个问题要问您:

Logistic 回归是回归器还是分类器?

嗯,这个问题就像:西红柿是水果还是蔬菜?

从植物学家的角度来看,番茄是一种水果,因为他们关注的是结构:种子、花朵、植物生物学。

从厨师的角度来看,番茄是一种蔬菜,因为他们关注的是味道、番茄在食谱中的使用方式、是否用于沙拉或甜点。

同一个对象,两个有效答案,因为角度不同。

逻辑回归正是如此。

  • 从统计/GLM 的角度来看,它是一个回归。而且这个框架中无论如何也没有“分类”的概念。有伽玛回归、逻辑回归、泊松回归……
  • 从机器学习的角度来看,它用于分类。所以它是一个分类器。
  • 我们稍后会再讨论这个问题。

    现在,有一件事是确定的:

    Logistic 回归非常适合目标变量为二元变量的情况,通常 y 编码为 0 或 1。

    但是...

    什么是基于权重模型的分类器?

    因此,y 可以是 0 或 1。

    0或1,它们是数字,对吧?

    所以我们可以认为 y 是连续的!

    是的,y = a x + b,其中 y = 0 或 1。

    为什么不呢?

    现在,您可能会问:为什么现在要问这个问题?为什么之前没有问过。

    嗯,对于基于距离和基于树的模型,分类 y 是真正分类的。

    当 y 是分类的时,例如红色、蓝色、绿色或简单的 0 和 1:

  • 在 K-NN 中,您可以通过查看每个类的邻居来进行分类。
  • 在质心模型中,您可以与每个类的质心进行比较。
  • 在决策树中,您可以计算每个节点的类比例。
  • 在所有这些模型中:

    类标签不是数字。

    它们是类别。

    算法从不将它们视为值。

    因此分类是自然且直接的。

    但对于基于权重的模型,情况有所不同。

    在基于权重的模型中,我们总是计算如下内容:

    y = a x + b

    或更复杂的带有系数的函数。

    这意味着:

    原理

  • 重复。