因果推理手册:每个数据科学家都应该掌握的高级方法

使用 Python 掌握六种高级因果推理方法:双重稳健估计、工具变量、不连续性回归、现代双重差分、异质治疗效果和敏感性分析。包括代码和实用的决策框架。因果推理手册:每个数据科学家都应该掌握的高级方法一文首先出现在走向数据科学上。

来源:走向数据科学

如果您之前学过因果推理,那么您可能已经对基础知识有深入的了解,例如潜在结果框架、倾向得分匹配和基本的双重差异。然而,当遇到现实世界的挑战时,基本方法常常会失效。有时,混杂因素无法衡量,治疗方案在不同时间点推出,或者不同人群的效果各不相同。

本文面向那些已经扎实掌握基础知识并现在希望通过更先进的技术扩展其技能的个人。 为了使事情更加相关和切实,我们将使用一个反复出现的场景作为案例研究来评估职业培训计划是否对收入产生积极影响。 这个经典的因果关系问题特别适合我们的目的,因为它充满了现实世界中出现的复杂性,例如自我选择、无法测量的能力和动态效应,使其成为我们将要探索的高级方法的理想测试用例。

“统计分析最重要的方面不是你如何处理数据,而是你使用什么数据以及如何收集数据。”

— Andrew Gelman、Jennifer Hill 和 Aki Vehtari,回归和其他故事

内容

简介

1. 双重稳健估计:防止错误指定的保险

2. 工具变量:当混杂因素无法测量时

3. 不连续性回归:可信的准实验

4. 差异中的差异:导航交错采用

5. 异质处理效果:超越平均水平

6. 敏感性分析:诚实研究人员的工具包

将所有内容放在一起:决策框架

最后的想法

第 1 部分:双重稳健估计

实际上,这涉及三个步骤:

下面是 Python 中简单实现的代码:

第 2 部分:工具变量

三个要求:要使工具 Z 有效,必须满足三个条件:

  • 排除限制:Z 仅通过治疗影响结果。