详细内容或原文请订阅后点击阅览
随机化在实验中发挥作用,即使没有平衡
随机化通常会平衡实验中的混杂因素,但如果不能平衡混杂因素,会发生什么?这篇文章《随机化在实验中有效,即使没有平衡》首先出现在《走向数据科学》上。
来源:走向数据科学实验中治疗的随机分配具有平衡测试组之间的混杂因素和其他协变量的惊人趋势。这种趋势为分析实验结果和得出结论提供了许多有利的特征。然而,随机化往往会平衡协变量——这并不能保证。
如果随机化不能平衡协变量怎么办?不平衡是否会破坏实验的有效性?
我在这个问题上思考了一段时间,才得出了一个令人满意的结论。在本文中,我将引导您完成我的思考过程,以了解实验有效性取决于协变量和治疗的独立性,而不是平衡。
以下是我将讨论的具体主题:
随机化倾向于平衡协变量,但不能保证
中心极限定理 (CLT) 表明,随机选择的样本均值呈正态分布,均值等于总体均值,方差等于总体方差除以样本量。这个概念非常适用于我们的对话,因为我们对平衡感兴趣——即,当我们的随机样本的平均值接近时。 CLT 提供了这些样本均值的分布。
由于 CLT,我们可以像对待任何其他随机变量一样思考样本的平均值。如果您还记得概率 101,给定随机变量的分布,我们可以计算个体从分布中得出的落在特定范围内的概率。
下面的简单 Python 函数计算给定种群分布和样本大小的兔子随机样本落入特定范围的概率:
尽管随机分配但协变量不平衡的原因
以下是我将介绍的五个原因:
