固定和随机效果的隐藏陷阱

我的教训是,如何盲目地控制噪声可以消除您正在测量的效果,固定和随机效果的隐藏陷阱首先出现在数据科学方面。

来源:走向数据科学

什么是随机效果和固定效果?

设计研究时,我们通常旨在将自变量与无兴趣的变量隔离,以观察它们对因变量的真实影响。例如,假设我们想研究使用GitHub Copilot(自变量)对开发人员生产率(因变量)的影响。一种方法是测量开发人员使用副驾驶花费的时间以及完成编码任务的速度。乍一看,我们可能会观察到强烈的正相关:更多的副词使用情况,更快的任务完成。

自变量 因变量

但是,其他因素也会影响开发人员完成工作的速度。例如,A公司可能具有更快的CI/CD管道或处理较小,更简单的任务,而B公司可能需要冗长的代码审查或处理更复杂且耗时的任务。如果我们不考虑这些组织差异,我们可能会错误地得出结论,尽管环境而非副驾驶,但对于B公司的开发人员来说,副驾驶员的效率较小,但确实会使它们降低。

这些类型的群体级别变化 - 团队,公司或项目之间的差异 - 通常称为“随机效果”或“固定效果”。

“随机效果” 随机效果 固定效果

固定效果是感兴趣的变量,其中每个组都使用一式编码分别处理。这样,由于组内变异性在每个虚拟变量中都整齐地捕获,因此我们假设每个组的方差相似或均匀。

\ [y_i = \ beta_0 + \ beta_1 x_i + \ gamma_1 d_ {1i} + \ gamma_2 d_2 d_ {2i} + \ cdots + \ cdots + \ varepsilon_i \]

其中d1i,d2i,…分别是代表D1I,D2I,…和γ₁,γ₂的虚拟变量,分别是每个相应组的固定效应系数。

1i 2i

\ [y_ {ij} = \ beta_0 + \ beta_1 x_ {ij} + u_j + \ varepsilon_ {ij} \]

J

重新考虑仔细固定和随机效果

AI模型的环境影响 训练_Time Hardware_Type