面向有抱负的数据科学家的因果机器学习

对因果推理和机器学习的简单介绍《面向有抱负的数据科学家的后因果机器学习》首先出现在《走向数据科学》上。

来源:走向数据科学

:机器学习的局限性

作为当今数字时代的数据科学家,您必须有能力回答远远超出简单模式识别范围的各种问题。典型的机器学习是建立在关联之上的;它试图在现有数据中找到模式,以在基础系统保持不变的假设下预测未来的观测结果。如果你训练一个模型来预测房价,你就是在要求算法在给定一组特征的情况下找到最有可能的价格。

然而,因果分析引入了“假设”成分。如果我们主动改变一个变量,系统会如何反应,这超出了观察的范围。这就是注意到购买昂贵拿铁咖啡的人也可能购买跑车和了解降低咖啡价格是否真的会导致汽车销量增加之间的区别。在因果推理的世界中,我们本质上是在尝试了解商业或社会系统的基本规律,使我们能够预测尚未采取的行动的结果。

当我们需要超越观察模式来做出决策时,因果分析在许多领域都至关重要,特别是在医疗保健、营销和公共政策等领域。假设一位医学研究人员正在评估一种新的血压药物及其对心脏病发作严重程度的影响。根据历史数据,您可能会发现服用该药物的患者实际上患有更严重的心脏病。标准的 ML(机器学习)模型表明该药物是有害的。然而,这可能是由于混淆所致:医生只给健康状况不佳的患者开药。为了找到真相,我们必须将药物的实际影响与患者现有状况的噪音区分开来。

潜在成果框架

Y:结果(例如,心脏病发作严重程度评分从 0 到 100)。

T:治疗指标。这是一个二进制“开关”:

T = 1 表示患者服用了药物。

ATE = E[Y(1) - Y(0)]