详细内容或原文请订阅后点击阅览
因果推理正在吞噬机器学习
您的 ML 模型可以完美预测,但会建议错误的操作。学习 5 个问题诊断、方法比较矩阵和 Python 工作流程,通过因果推理来修复它。因果推理正在吞噬机器学习这篇文章首先出现在《走向数据科学》上。
来源:走向数据科学于 2024 年初发布了重新接纳预测模型。这是根据 Hernán 和 Robins 在《自然机器智能》中记录的模式绘制的复合案例,但每个细节都映射到真实的部署失败。
保留测试集的准确率:94%。运营团队用它来决定哪些患者优先接受后续呼叫。他们预计再入院率会下降。
价格上涨。
该模型捕获了数据中的每一个相关性:老年患者、某些邮政编码、特定的出院诊断。它的性能完全符合设计。测试指标很干净。混淆矩阵看起来像教科书。
但是,当团队根据这些预测采取行动(将患者标记为高风险,重新安排出院方案)时,数据中的关系发生了变化。接受额外随访的患者没有改善。那些不断重新入院的人有着完全不同的情况:他们买不起药物,缺乏可靠的交通来进行后续预约,或者独自生活,没有出院后护理的支持。预测再入院的变量与导致再入院的变量不同。
该模型从未了解过这种区别,因为它从未被设计为这样做。它看到了相关性并假设它们是你可以拉动的手柄。他们不是。它们是模型看不到的更深层次原因所投射的阴影。
一个以 94% 的准确率预测再入院的模型可以准确地告诉团队谁会回来。它没有告诉他们为什么,或者该怎么做。
如果您构建的模型预测良好,但在转化为决策时却失败了,那么您已经感受到了这个问题。你只是没有给它起一个名字。
这个名字很令人困惑。解决方案是因果推理。到 2026 年,正确实现这一目标的工具终于足够成熟,可供任何数据科学家使用。
你的模型无法回答的问题
回答“我们应该做什么?”使用专为“会发生什么?”而设计的工具就像使用温度计来设置恒温器一样。
