详细内容或原文请订阅后点击阅览
相关性与因果性:通过倾向得分匹配衡量真实影响
了解倾向得分匹配如何揭示观察数据中的真正因果关系。通过寻找“统计双胞胎”,我们消除了选择偏差,以揭示您的干预措施和业务决策的真正影响。相关性与因果关系后:用倾向得分匹配衡量真实影响首先出现在走向数据科学上。
来源:走向数据科学任务,特别是当我们执行 A/B 测试来了解给定变量对这些组的影响时。
问题是这个世界只是……嗯,真实的。我的意思是,想象一个受控环境是非常美妙的,我们可以在其中隔离一个变量并测量它的影响。但大多数时候发生的情况是,生活压倒一切,接下来你知道,你的老板要求你比较最新活动对客户支出的影响。
但你从未准备好实验数据。您拥有的只是活动前后的持续数据。
输入倾向得分匹配
简单来说,倾向得分匹配 (PSM) 是一种统计技术,用于查看特定行为(“治疗”)是否确实产生了结果。
因为我们无法回到过去,看看如果有人做出不同的选择会发生什么,我们在数据中找到了一个“双胞胎”,一个看起来几乎一模一样的人,但没有采取治疗行动,而是比较他们的结果。找到这些“统计双胞胎”有助于我们公平地比较客户,即使您没有进行完美的随机实验。
平均值的问题
简单平均值假设各组一开始就相同。当您将治疗组与对照组的简单平均值进行比较时,您正在测量导致人们首先选择该治疗的所有预先存在的差异。
假设我们想测试一种新的跑步者能量胶。如果我们只是将使用凝胶的人和未使用凝胶的人进行比较,我们就会忽略跑步者的经验和知识水平等重要因素。购买凝胶的人可能更有经验,有更好的鞋子,甚至更努力地训练并受到专业人士的监督。无论如何,他们已经“倾向于”跑得更快。
PSM 承认差异并像侦察员一样行事:
