为什么大多数 A/B 测试都在骗你

导致大多数 A/B 测试无效的 4 种统计错误,以及周一可以使用的预测试清单和贝叶斯与频率主义决策框架。为什么大多数 A/B 测试都在骗你的文章首先出现在《走向数据科学》上。

来源:走向数据科学

星期四。一家 B 轮 SaaS 公司的产品经理当天第四次打开她的 A/B 测试仪表板,笔记本电脑旁边放着一杯半醉的冷萃咖啡。屏幕上显示:变体 B,转化提升 +8.3%,统计显着性为 96%。

她截取了结果。使用派对表情符号将其发布到 #product-wins Slack 频道中。工程主管竖起大拇指回应,并开始计划推出冲刺。

这是仪表板没有向她显示的内容:如果她再等三天(原计划的测试持续时间),该显着性将下降至 74%。 +8.3% 的升幅将缩减至 +1.2%。低于本底噪声。不是真的。

如果您曾经因为测试“达到显着性”而提早停止测试,那么您可能已经犯了这个错误的一个版本。你在大公司。根据 Ronny Kohavi 在《哈佛商业评论》上发表的研究,在 Google 和 Bing,只有 10% 到 20% 的对照实验产生积极结果。总体而言,在微软,三分之一的实验被证明是有效的,三分之一是中立的,三分之一的实验严重损害了他们想要改进的指标。大多数想法都行不通。 “证明”它们确实有效的实验通常会告诉你你想听到的内容。

如果您的 A/B 测试工具让您每天查看结果并在置信条变绿时停止,那么它就不是测试工具。它是一个具有更好用户界面的随机数生成器。

下面的四种统计错误导致了大部分不可靠的 A/B 测试结果。每个问题的修复时间不超过 15 分钟。在本文结束时,您将拥有一个包含五个项目的预测试清单和一个决策框架,用于在频率测试、贝叶斯测试和顺序测试之间进行选择,您可以将其应用于周一早上的下一个实验。

窥视问题:26% 的获奖者不是真实的

每次您在计划结束日期之前检查 A/B 测试结果时,您都在运行新的统计测试。不是比喻意义上的。字面上地。

是26.1%。

四分之一的“获胜者”纯粹是噪音。