回归分析背后的直觉

回归分析是经济学、数据科学和计算机科学中的一个关键主题,但其根源可以追溯到这些学科之前。弗朗西斯·高尔顿爵士在研究了父母及其孩子的身高并注意到这些身高往往会“回归”到平均值后,被认为发明了这个术语。这个名称与这种类型的分析相关联,并且一直沿用至今,尽管更准确的名称可能是“方差分析”之类的东西。我们之前已经写过什么是回归分析。如果您对回归的概念完全陌生,那么这是一个很好的起点。在本文中,我们将更仔细地研究数据科学家、经济学家和统计学家工具箱中的这个工具,以准确了解当我们运行该工具时会发生什么。

来源:INOMICS

回归分析是经济学、数据科学和计算机科学中的一个关键主题,但其根源可以追溯到这些学科之前。弗朗西斯·高尔顿爵士在研究了父母及其孩子的身高并注意到这些身高往往会“回归”到平均值后,被认为发明了这个术语。这个名称与这种类型的分析联系在一起,并且一直沿用至今,尽管更准确的名称可能是“方差分析”之类的东西。

我们之前写过什么是回归分析。如果您对回归的概念完全陌生,那么这是一个很好的起点。在本文中,我们将更仔细地研究数据科学家、经济学家和统计学家工具箱中的这个工具,以准确了解当我们运行该工具时会发生什么。

一切都与方差有关

许多回归分析背后的基本问题是:x 对 y 的影响有多大?或者,换种说法:当 x 发生变化时,y 会发生多少变化?这是思考回归试图做什么的好方法。本质上,回归测量 y 的变化有多少是由 x 变化引起的,忽略其他回归量的变化(弗里施-沃定理说明了回归如何隔离单个变量对 y 的影响,但这超出了本文的范围)。

回归将 x 解释为系数(通常用小写 beta 符号:𝛽 表示)的 y 中的任何变化归因于 x 无法解释的术语,我们称之为“误差”。最后,计算统计数据,告诉我们 x 对 y 的影响是由于随机机会造成的可能性有多大——如果可能性很小,我们将其称为“统计显着”结果。

这听起来可能很简单,但“幕后”正在发生很多事情。在深入研究一些更复杂的场景之前,让我们画一张图,以便我们可以直观地看到运行回归时发生的情况。

回归分析的几何学

寻找不可知的真相