详细内容或原文请订阅后点击阅览
线性回归实际上是一个投影问题(第二部分:从投影到预测)
最小二乘法的向量视图。后线性回归实际上是一个投影问题(第 2 部分:从投影到预测)首先出现在《走向数据科学》上。
来源:走向数据科学认为线性回归就是将一条线拟合到数据上。
但从数学上来说,这并不是它所做的。
它正在寻找
由要素跨越的空间。
要理解这一点,我们需要改变看待数据的方式。
在第 1 部分中,我们了解了向量是什么,并探讨了点积和投影的概念。
现在,让我们应用这些概念来解决线性回归问题。
我们有这些数据。
通常的方式:特征空间
当我们尝试理解线性回归时,我们通常从自变量和因变量之间绘制的散点图开始。
该图上的每个点代表一行数据。然后,我们尝试通过这些点拟合一条线,目标是最小化残差平方和。
为了从数学上解决这个问题,我们写下成本函数方程并应用微分来找到斜率和截距的精确公式。
正如我们在我之前的多元线性回归 (MLR) 博客中已经讨论过的,这是理解问题的标准方法。
这就是我们所说的特征空间。
完成所有这些过程后,我们得到斜率和截距的值。这里我们需要观察一件事。
假设 ŷᵢ 是某个点的预测值。我们有了斜率和截距值,现在根据我们的数据,我们需要预测价格。
如果 ŷᵢ 是房屋 1 的预测价格,我们使用
\[
\beta_0 + \beta_1 \cdot \text{大小}
\]
我们在这里做了什么?我们有一个大小值,并用一定的数字(我们称之为斜率(β₁))对其进行缩放,以使该值尽可能接近原始值。
我们还添加截距 (β₀) 作为基值。
现在让我们记住这一点,然后我们将进入下一个视角。
视角的转变
让我们看看我们的数据。
现在,我们不再将价格和尺寸视为轴,而是将每栋房子视为轴。
然后,我们简单地绘制我们的点。
从点到方向
为什么这个观点很重要
X =
