为什么大多数 A/B 测试都在骗你 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为什么大多数 A/B 测试都在骗你

2026年3月11日 13:30 33 Comments

导致大多数 A/B 测试无效的 4 种统计错误，以及周一可以使用的预测试清单和贝叶斯与频率主义决策框架。为什么大多数 A/B 测试都在骗你的文章首先出现在《走向数据科学》上。

来源:走向数据科学

星期四。一家 B 轮 SaaS 公司的产品经理当天第四次打开她的 A/B 测试仪表板，笔记本电脑旁边放着一杯半醉的冷萃咖啡。屏幕上显示：变体 B，转化提升 +8.3%，统计显着性为 96%。

她截取了结果。使用派对表情符号将其发布到 #product-wins Slack 频道中。工程主管竖起大拇指回应，并开始计划推出冲刺。

这是仪表板没有向她显示的内容：如果她再等三天（原计划的测试持续时间），该显着性将下降至 74%。 +8.3% 的升幅将缩减至 +1.2%。低于本底噪声。不是真的。

如果您曾经因为测试“达到显着性”而提早停止测试，那么您可能已经犯了这个错误的一个版本。你在大公司。根据 Ronny Kohavi 在《哈佛商业评论》上发表的研究，在 Google 和 Bing，只有 10% 到 20% 的对照实验产生积极结果。总体而言，在微软，三分之一的实验被证明是有效的，三分之一是中立的，三分之一的实验严重损害了他们想要改进的指标。大多数想法都行不通。 “证明”它们确实有效的实验通常会告诉你你想听到的内容。

如果您的 A/B 测试工具让您每天查看结果并在置信条变绿时停止，那么它就不是测试工具。它是一个具有更好用户界面的随机数生成器。

下面的四种统计错误导致了大部分不可靠的 A/B 测试结果。每个问题的修复时间不超过 15 分钟。在本文结束时，您将拥有一个包含五个项目的预测试清单和一个决策框架，用于在频率测试、贝叶斯测试和顺序测试之间进行选择，您可以将其应用于周一早上的下一个实验。

窥视问题：26% 的获奖者不是真实的

每次您在计划结束日期之前检查 A/B 测试结果时，您都在运行新的统计测试。不是比喻意义上的。字面上地。

是26.1%。

四分之一的“获胜者”纯粹是噪音。

改进的大部分仪表板可靠的发表界面的生成器错误的四分之一本底噪声不可靠的持续时间结果 8.3% 测试仪表测试工具修复时间下一个测试随机数回应根据下面的有效的用户界面实验计划的统计真实的不超过预测试显示中立的测试仪显着性计划产品经理顺序测试三分之一

为什么大多数 A/B 测试都在骗你

窥视问题：26% 的获奖者不是真实的

其他外部链接

Tags

XiaoMi-AI