多元线性回归简单解释(第 1 部分)

拟合平面而不是直线背后的数学。简单解释多元线性回归(第 1 部分)一文首先出现在《走向数据科学》上。

来源:走向数据科学

在这篇博文中,我们讨论多元线性回归。

多元线性回归

这是我们机器学习之旅中首先学习的算法之一,因为它是简单线性回归的扩展。

我们知道,在简单线性回归中,我们有一个自变量和一个目标变量,而在多元线性回归中,我们有两个或多个自变量和一个目标变量。

在本博客中,我们不只是使用 Python 应用算法,而是探索多元线性回归算法背后的数学原理。

让我们探索一下多元线性回归算法背后的数学原理。

让我们考虑 Fish Market 数据集,以了解多元线性回归背后的数学原理。

鱼市场数据集

该数据集包含每条鱼的物理属性,例如:

    Species – 鱼的类型(例如,鲷鱼、蟑螂、梭子鱼)Weight – 鱼的重量(以克为单位)(这将是我们的目标变量)Length1、Length2、Length3 – 各种长度测量值(以厘米为单位)Height – 鱼的高度(以厘米为单位)Width – 鱼身体的对角线宽度(以厘米为单位)
  • 物种 – 鱼的类型(例如,鳊鱼、蟑螂、梭子鱼)
  • 重量 – 鱼的重量(以克为单位)(这将是我们的目标变量)
  • Length1、Length2、Length3 – 各种长度测量值(以厘米为单位)
  • 高度 – 鱼的高度(以厘米为单位)
  • 宽度 – 鱼体的对角线宽度(以厘米为单位)
  • 为了理解多元线性回归,我们将使用两个自变量来使其简单且易于可视化。

    我们将考虑此数据集中的 20 点样本。

    作者图片

    我们考虑了 Fish Market 数据集中的 20 点样本,其中包括 20 条鱼的测量值,特别是它们的高度和宽度以及相应的重量。这三个值将帮助我们理解多元线性回归在实践中是如何工作的。

    首先,让我们使用 Python 对 20 点样本数据拟合多元线性回归模型。

    代码:

    结果:

    截距 (β₀): -1005.2810

    高度斜率 (β₁):78.1404

    今天不行!

    其中

    y