详细内容或原文请订阅后点击阅览
机器学习“降临日历”第 12 天:Excel 中的逻辑回归
在本文中,我们直接在 Excel 中一步步重建逻辑回归。从二进制数据集开始,我们探讨线性回归作为分类器为何举步维艰,逻辑函数如何解决这些问题,以及对数损失如何自然地从似然中出现。借助透明的梯度下降表,您可以在每次迭代中观察模型的学习情况,从而使整个过程直观、直观且令人惊讶地令人满意。机器学习“降临日历”第 12 天:Excel 中的逻辑回归首先出现在走向数据科学。
来源:走向数据科学今天的模型是逻辑回归。
如果您已经知道这个模型,这里有一个问题要问您:
Logistic 回归是回归器还是分类器?
嗯,这个问题就像:西红柿是水果还是蔬菜?
从植物学家的角度来看,番茄是一种水果,因为他们关注的是结构:种子、花朵、植物生物学。
从厨师的角度来看,番茄是一种蔬菜,因为他们关注的是味道、番茄在食谱中的使用方式、是否用于沙拉或甜点。
同一个对象,两个有效答案,因为角度不同。
逻辑回归正是如此。
我们稍后会再讨论这个问题。
现在,有一件事是确定的:
Logistic 回归非常适合目标变量为二元变量的情况,通常 y 编码为 0 或 1。
但是...
什么是基于权重模型的分类器?
因此,y 可以是 0 或 1。
0或1,它们是数字,对吧?
所以我们可以认为 y 是连续的!
是的,y = a x + b,其中 y = 0 或 1。
为什么不呢?
现在,您可能会问:为什么现在要问这个问题?为什么之前没有问过。
嗯,对于基于距离和基于树的模型,分类 y 是真正分类的。
当 y 是分类的时,例如红色、蓝色、绿色或简单的 0 和 1:
在所有这些模型中:
类标签不是数字。
它们是类别。
算法从不将它们视为值。
因此分类是自然且直接的。
但对于基于权重的模型,情况有所不同。
在基于权重的模型中,我们总是计算如下内容:
y = a x + b
或更复杂的带有系数的函数。
这意味着:
