相关性与因果性：通过倾向得分匹配衡量真实影响 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

相关性与因果性：通过倾向得分匹配衡量真实影响

2026年4月22日 16:30 33 Comments

了解倾向得分匹配如何揭示观察数据中的真正因果关系。通过寻找“统计双胞胎”，我们消除了选择偏差，以揭示您的干预措施和业务决策的真正影响。相关性与因果关系后：用倾向得分匹配衡量真实影响首先出现在走向数据科学上。

来源:走向数据科学

任务，特别是当我们执行 A/B 测试来了解给定变量对这些组的影响时。

问题是这个世界只是……嗯，真实的。我的意思是，想象一个受控环境是非常美妙的，我们可以在其中隔离一个变量并测量它的影响。但大多数时候发生的情况是，生活压倒一切，接下来你知道，你的老板要求你比较最新活动对客户支出的影响。

但你从未准备好实验数据。您拥有的只是活动前后的持续数据。

输入倾向得分匹配

简单来说，倾向得分匹配 (PSM) 是一种统计技术，用于查看特定行为（“治疗”）是否确实产生了结果。

因为我们无法回到过去，看看如果有人做出不同的选择会发生什么，我们在数据中找到了一个“双胞胎”，一个看起来几乎一模一样的人，但没有采取治疗行动，而是比较他们的结果。找到这些“统计双胞胎”有助于我们公平地比较客户，即使您没有进行完美的随机实验。

平均值的问题

简单平均值假设各组一开始就相同。当您将治疗组与对照组的简单平均值进行比较时，您正在测量导致人们首先选择该治疗的所有预先存在的差异。

假设我们想测试一种新的跑步者能量胶。如果我们只是将使用凝胶的人和未使用凝胶的人进行比较，我们就会忽略跑步者的经验和知识水平等重要因素。购买凝胶的人可能更有经验，有更好的鞋子，甚至更努力地训练并受到专业人士的监督。无论如何，他们已经“倾向于”跑得更快。

PSM 承认差异并像侦察员一样行事：

比较：现在，您比较这些“双胞胎”的完成时间。

数据集

结果

倾向于 PSM 测量先存在输入匹配对照组侦察员简单治疗的选择统计治疗真实的拥有的受控环境跑步实验数据假设双胞胎差异数据集比较得分问题完成时间平均值支出的不同的凝胶