线性回归实际上是一个投影问题(第二部分:从投影到预测)

最小二乘法的向量视图。后线性回归实际上是一个投影问题(第 2 部分:从投影到预测)首先出现在《走向数据科学》上。

来源:走向数据科学

认为线性回归就是将一条线拟合到数据上。

但从数学上来说,这并不是它所做的。

它正在寻找

由要素跨越的空间。

要理解这一点,我们需要改变看待数据的方式。

在第 1 部分中,我们了解了向量是什么,并探讨了点积和投影的概念。

现在,让我们应用这些概念来解决线性回归问题。

我们有这些数据。

通常的方式:特征空间

当我们尝试理解线性回归时,我们通常从自变量和因变量之间绘制的散点图开始。

该图上的每个点代表一行数据。然后,我们尝试通过这些点拟合一条线,目标是最小化残差平方和。

为了从数学上解决这个问题,我们写下成本函数方程并应用微分来找到斜率和截距的精确公式。

正如我们在我之前的多元线性回归 (MLR) 博客中已经讨论过的,这是理解问题的标准方法。

这就是我们所说的特征空间。

完成所有这些过程后,我们得到斜率和截距的值。这里我们需要观察一件事。

假设 ŷᵢ 是某个点的预测值。我们有了斜率和截距值,现在根据我们的数据,我们需要预测价格。

如果 ŷᵢ 是房屋 1 的预测价格,我们使用

\[

\beta_0 + \beta_1 \cdot \text{大小}

\]

我们在这里做了什么?我们有一个大小值,并用一定的数字(我们称之为斜率(β₁))对其进行缩放,以使该值尽可能接近原始值。

我们还添加截距 (β₀) 作为基值。

现在让我们记住这一点,然后我们将进入下一个视角。

视角的转变

让我们看看我们的数据。

现在,我们不再将价格和尺寸视为轴,而是将每栋房子视为轴。

然后,我们简单地绘制我们的点。

从点到方向

为什么这个观点很重要

X =