套索回归:为什么解决方案存在于钻石上

这比您想象的要简单。套索回归后:为什么解决方案存在于钻石上首先出现在走向数据科学上。

来源:走向数据科学

在线性回归方面,我们使用向量和投影的概念而不是微积分来解决线性回归问题。

现在,在本博客中,我们再次使用向量和投影的相同概念来理解套索回归。

当我学习这个主题时,我被诸如“我们添加惩罚项”和“Lasso 将系数缩小到零”之类的解释所困扰。

我无法理解这个方法背后到底发生了什么。

我相信你们中的许多人可能和我有一样的感觉,我认为这对于初学者以及任何使用线性回归解决现实世界问题的人来说都很常见。

但今天,我们再次以一种新的方式来探讨这个经典话题,以便我们可以清楚地看到幕后真正发生的事情。

当完美的模型开始失败时

在继续之前,让我们先了解一下为什么我们实际使用 Lasso 回归。

例如,假设我们有一些数据,我们对其应用线性回归并得到零误差。

我们可能认为我们有一个完美的模型,但是当我们在新数据上测试该模型时,我们得到的预测值不可靠或不符合现实。

在这种情况下,我们可以说我们的模型具有低偏差和高方差。

一般来说,当特征数量较多时,特别是当它们与观察数量相当或更多时,我们会使用Lasso,这可能会导致过度拟合。

这意味着模型不是从数据中学习模式,而是简单地记住它。

Lasso 通过将一些系数缩小到零来帮助仅选择重要特征。

现在,为了使模型更加可靠,我们使用Lasso回归,等我们解决实际问题后你就会详细理解。

假设我们有这个房子的数据。现在我们需要建立一个模型,根据房屋的大小和年龄来预测房屋的价格。

让我们先构建模型

首先,让我们使用Python来构建这个线性回归模型。

代码:

结果:

我们得到的结果:β₀ = 1, β₁ = 2, β2 = 1

将回归理解为空间运动

9