机器学习“降临日历”第 13 天:Excel 中的 LASSO 和岭回归

岭回归和套索回归通常被认为是线性回归的更复杂版本。事实上,预测模型保持完全相同。改变的是训练目标。通过对系数添加惩罚,正则化迫使模型选择更稳定的解决方案,尤其是当特征相关时。在 Excel 中逐步实现 Ridge 和 Lasso 使这个想法变得明确:正则化不会增加复杂性,它会增加偏好。机器学习“降临日历”第 13 天:Excel 中的 LASSO 和 Ridge 回归一文首先出现在《走向数据科学》上。

来源:走向数据科学

有一天,一位数据科学家告诉我们,岭回归是一个复杂的模型。因为他看到训练公式更加复杂。

嗯,这正是我的机器学习“降临日历”的目标,阐明这种复杂性。

因此,在今天的文章中,我们将讨论线性回归的惩罚版本。

  • 首先,我们将了解为什么需要正则化或惩罚,以及如何修改模型
  • 然后我们将探讨不同类型的正则化及其效果。
  • 我们还将通过正则化来训练模型并测试不同的超参数。
  • 我们还将提出一个关于如何对惩罚项中的权重进行加权的进一步问题。 (困惑?你会看到的)
  • 线性回归及其“条件”

    当我们谈论线性回归时,人们经常提到应该满足一些条件。

    您可能听过这样的说法:

  • 残差应该是高斯分布(有时会与目标是高斯分布相混淆,这是错误的)
  • 解释变量不应共线
  • 在经典统计中,这些条件是推理所必需的。在机器学习中,重点是预测,因此这些假设不太重要,但潜在的问题仍然存在。

    在这里,我们将看到两个特征共线的示例,让我们使它们完全相等。

    我们有这样的关系: y = x1 + x2, 且 x1 = x2

    我知道如果它们完全相等,我们可以这样做:y=2*x1。但我们的想法是说它们可以非常相似,我们总是可以使用它们构建模型,对吗?

    那么问题出在哪里呢?

    当特征完全共线时,解不是唯一的。下面是屏幕截图中的示例。

    y = 10000*x1 – 9998*x2

    我们可以注意到系数的范数很大。

    因此,我们的想法是限制系数的范数。

    并且应用正则化后,概念模型是相同的!

    正则化的不同版本

    岭回归(L2 惩罚)

    直观地:

    效果:

    所以: