重新思考统计工具包

Alwyn Young 2019 年的文章“Channeling Fisher:随机化检验和看似显着的实验结果的统计意义”(QJE,134(2))为经济学家和其他研究人员提供了重要的方法论警告。该研究重点关注一个称为杠杆的概念。简单来说,杠杆意味着某些单独的数据点对您的统计结果的影响比 [...]

来源:Lars P Syll

重新思考统计工具包

Alwyn Young 2019 年的文章“Channeling Fisher:随机化检验和看似显着的实验结果的统计意义”(QJE,134(2))为经济学家和其他研究人员提供了重要的方法论警告。该研究重点关注一个称为杠杆的概念。简单来说,杠杆意味着某些单独的数据点对统计结果的影响比其他数据点大得多。杨表明,单个数据点(仅一次观察)有时可以完全改变你的结论。

要理解为什么这很重要,假设您进行了一项实验并发现了一个在 1% 水平上具有统计显着性的结果。 Young 证明,如果您仅删除或更改一项高杠杆率的观察结果,那么大约 35% 的此类重要结果可能会变得微不足道。相反,大约16%的原本不重要的结果可以变成重要的结果。这就提出了一个基本问题——有多少已发表的经济学成果实际上是脆弱的,可能无法经得起仔细研究?

杨重新审视了顶级经济学期刊的五十多个实验,强调了经济学中严重的可重复性危机。如果单个观察可以翻转结果,那么最初的发现就不稳健。

Young 建议使用随机推理,而不是依赖标准回归方法(我们知道这种方法对“集中杠杆”敏感)(您可以在 Scott Cunningham 的因果推理:The Mixtape,第 148-174 页中阅读更多相关内容)。这是一种基于设计的技术,仅在实验中使用随机分配的治疗方法,而不对数据的分布方式做出脆弱的假设。通过改用随机化测试,研究人员可以获得更稳健、更值得信赖的 p 值,并避免被有影响力的异常值误导。