多个线性回归分析

在实际数据上实施多个线性回归:使用Python的假设检查,模型评估和结果解释。后来的多线性回归分析首先出现在数据科学上。

来源:走向数据科学
本文底部的此示例的完整代码。

多重回归。数据的形式是:

(y₁,x₁),…,(yᵢ,xᵢ),…,(yₙ,xₙ)

其中xᵢ=(xᵢ₁,…,xᵢₖ)是协变量的向量,n是观测值。在这里,XI是ITH观察值K协变量值的向量。

了解数据

要制作这种具体,想象以下情况:

您喜欢通过记录每天运行的距离来跑步和跟踪性能。在连续100天内,您收集了四个信息:

    您运行的距离,跑步的小时数,昨晚睡觉的小时数以及工作的小时数
  • 您运行的距离,
  • 您跑步的小时数,
  • 您昨晚睡觉的小时数,
  • 和您工作的小时数
  • 现在,在第101天,您录制了除了距离之外的所有内容。您想使用确实拥有的信息来估算缺少的价值:您跑步的小时数,前一天晚上睡觉的小时数以及当天工作的小时数。

    除外

    为此,您可以依靠前100天的数据,该数据采用:

    (y₁,x₁),…,(yᵢ,xᵢ),…,(y₁₀₀,x₁₀₀)

    在这里,每个yᵢ是您在第一天运行的距离,每个协变量向量xᵢ=(xᵢ₁,xᵢ₂,xᵢ₃)对应于:

    yᵢ i xᵢ=(xᵢ₁,xᵢ₂,xᵢ₃)
      xᵢ₁:跑步时间的数量,Xᵢ₂:前一天晚上睡觉的小时数:当天工作的小时数。
  • Xᵢ₁:跑步的小时数,
  • xᵢ₁
  • xᵢ₂:前一天晚上睡觉的小时数,
  • xᵢ₂
  • xᵢ₃:那天工作的小时数。
  • xᵢ₃

    索引i = 1,…,100指的是100天,带有完整的数据。使用此数据集,您现在可以拟合多个线性回归模型,以估算第101天缺少的响应变量。

    i = 1,…,100

    模型的规范

    xᵢ₁= 1,
    结果变量。