详细内容或原文请订阅后点击阅览
机器学习“降临日历”第 13 天:Excel 中的 LASSO 和岭回归
岭回归和套索回归通常被认为是线性回归的更复杂版本。事实上,预测模型保持完全相同。改变的是训练目标。通过对系数添加惩罚,正则化迫使模型选择更稳定的解决方案,尤其是当特征相关时。在 Excel 中逐步实现 Ridge 和 Lasso 使这个想法变得明确:正则化不会增加复杂性,它会增加偏好。机器学习“降临日历”第 13 天:Excel 中的 LASSO 和 Ridge 回归一文首先出现在《走向数据科学》上。
来源:走向数据科学有一天,一位数据科学家告诉我们,岭回归是一个复杂的模型。因为他看到训练公式更加复杂。
嗯,这正是我的机器学习“降临日历”的目标,阐明这种复杂性。
因此,在今天的文章中,我们将讨论线性回归的惩罚版本。
线性回归及其“条件”
当我们谈论线性回归时,人们经常提到应该满足一些条件。
您可能听过这样的说法:
在经典统计中,这些条件是推理所必需的。在机器学习中,重点是预测,因此这些假设不太重要,但潜在的问题仍然存在。
在这里,我们将看到两个特征共线的示例,让我们使它们完全相等。
我们有这样的关系: y = x1 + x2, 且 x1 = x2
我知道如果它们完全相等,我们可以这样做:y=2*x1。但我们的想法是说它们可以非常相似,我们总是可以使用它们构建模型,对吗?
那么问题出在哪里呢?
当特征完全共线时,解不是唯一的。下面是屏幕截图中的示例。
y = 10000*x1 – 9998*x2
我们可以注意到系数的范数很大。
因此,我们的想法是限制系数的范数。
并且应用正则化后,概念模型是相同的!
正则化的不同版本
岭回归(L2 惩罚)
直观地:
效果:
所以:
