报告计数数据模型的 R 平方度量

这篇文章的灵感来自于我前段时间收到的一封电子邮件,该邮件来自一位博客读者。我认为,更“广泛”的回应可能会引起其他读者的兴趣......尽管存在许多局限性,但在报告最小二乘回归结果时,包括判定系数 (R2) 或其“调整后”的值是标准做法。就我个人而言,我认为 R2 是我们结果中包含的最不重要的统计数据之一,但我们都这样做。(请参阅上一篇文章。)如果所讨论的回归模型是线性的(在参数中)并且包含截距,并且如果参数由普通最小二乘法 (OLS) 估计,则 R2 具有许多众所周知的属性。这些包括:0 ≤ R2 ≤ 1。如果我们向模型中添加回归量,R2 的值不会减小。无论我们将这个度量定义为“解释平方和”与“总平方和” (RE2) 的比率,R2 的值都是相同的;或减去“残差平方和”与“总平方和” (RR2) 的比率。R2 与所有斜率参数的显著性检验之间存在对应关系;随着回归量的增加,(调整后的) R2 的变化与对增加的回归量系数的显著性检验之间存在对应关系。(参见此处和此处。)R2 在数据的信息内容方面具有解释性。R2 是实际值与“拟合”值之间的 (Pearson) 相关性 (RC2) 的平方

来源:Dave Giles的博客

如果所讨论的回归模型是线性的(在参数中)并且包含截距,并且如果参数由普通最小二乘法 (OLS) 估计,则 R2 具有许多众所周知的属性。 这些包括:

2

但是,只要我们处理的模型不包括截距或参数是非线性的,或者我们使用 OLS 以外的估计量,

以上所有属性均无法保证 以上所有属性均无法保证

例如,在报告由工具变量估计的线性模型时,我们会根据采用上述属性 3 中提到的两个定义中的哪一个而获得不同的 R2 值。同样,在估计 Logit 和 Probit 模型(例如)时,大多数计量经济学软件包都会报告几个“伪 R2”统计数据,因为没有一个单一的度量具有我们在线性模型/OLS 案例中习惯的所有理想特征。所谓的“计数”数据经常出现在实证经济学中。这些数据的值仅为非负整数,即 0、1、2、3、4、........ 此类数据的模型通常基于泊松或负二项分布,尽管也可以使用其他分布。回归量通过将所选分布的平均值等于这些变量及其系数的正函数来进入模型。例如,如果使用平均值为 μ 的泊松分布对 yi 数据(i = 1、2、....、n)进行建模,则我们通常使用熟悉的回归符号分配 μi = exp[xi'β]。然后通过 MLE(或准 MLE)估计得到的非线性模型。对于估计的泊松回归,报告 R2 测量值的合理方法是什么?

不同 2 2 全部 i i i 2

与上面提到的 Logit-Probit 案例一样,有几种可能性。但是,与其他情况不同,在对“计数”数据进行建模时,实际上有一个 R 定义

2

真正脱颖而出,成为显而易见的选择。

它是什么?

R 2

、 R

E 2

和 R

C 2 C 2 R 2 E 2 减少 2 R 2 2 2 i i

- μ

i