谁想成为一名程序员

了解如何使用统计测试来确定均值差异是否显著,以 Coder Survey 数据集为案例研究。

来源:Another Datum

每个组都有一个条形,其长度等于该组的平均年龄。组越大,条形的颜色越浅。

我选择关注质量保证工程师组。他们的平均年龄比其他组大,约为 32 岁。有趣的是,看看这种影响是否是偶然的,或者成为 QA 工程师的愿望更有可能与平均年龄较大的人有关。

让我解释一下“偶然”的含义:请记住,我们的数据有限。它只讲述了新程序员群体中一小部分的故事。具体来说,我们只有 91 名 QA 工程师的数据。实际上,有更多的新程序员想要成为 QA 工程师:有些人没有参加调查,有些人甚至还没有开始学习如何编码。32 岁是新程序员 QA 工程师的样本平均值。我们想知道新程序员 QA 群体平均值是否大于其他新程序员群体平均值。我们没有整个群体的数据,所以我们能做的最好的事情就是估计他们的平均值。我们使用样本平均值来做到这一点。样本平均值是一个随机变量;它取决于我们得到的样本。我们本可以获得其他 QA 工程师样本,样本平均值会有所不同。另一方面,总体平均值是分布的非随机参数。

样本平均值 总体平均值 总体平均值

根据我们拥有的新程序员样本,有两种互补的可能性:

    QA 群体的平均年龄等于一般新程序员群体的平均年龄。它们是不同的。
  • QA 群体的平均年龄等于一般新程序员群体的平均年龄。
  • 它们是不同的。
  • 样本支持第二种选择,但这可能是偶然的(尤其是由于 QA 样本量较小)。接下来,我们将使用统计测试来量化由于偶然性而观察到这种差异的可能性。

    统计框架¶

    Z 检验¶

    $Z = \frac{\bar{X} - \mu}{\sigma}$