详细内容或原文请订阅后点击阅览
谁想成为一名程序员
了解如何使用统计测试来确定均值差异是否显著,以 Coder Survey 数据集为案例研究。
来源:Another Datum每个组都有一个条形,其长度等于该组的平均年龄。组越大,条形的颜色越浅。
我选择关注质量保证工程师组。他们的平均年龄比其他组大,约为 32 岁。有趣的是,看看这种影响是否是偶然的,或者成为 QA 工程师的愿望更有可能与平均年龄较大的人有关。
让我解释一下“偶然”的含义:请记住,我们的数据有限。它只讲述了新程序员群体中一小部分的故事。具体来说,我们只有 91 名 QA 工程师的数据。实际上,有更多的新程序员想要成为 QA 工程师:有些人没有参加调查,有些人甚至还没有开始学习如何编码。32 岁是新程序员 QA 工程师的样本平均值。我们想知道新程序员 QA 群体平均值是否大于其他新程序员群体平均值。我们没有整个群体的数据,所以我们能做的最好的事情就是估计他们的平均值。我们使用样本平均值来做到这一点。样本平均值是一个随机变量;它取决于我们得到的样本。我们本可以获得其他 QA 工程师样本,样本平均值会有所不同。另一方面,总体平均值是分布的非随机参数。
样本平均值 总体平均值 总体平均值根据我们拥有的新程序员样本,有两种互补的可能性:
- QA 群体的平均年龄等于一般新程序员群体的平均年龄。它们是不同的。
样本支持第二种选择,但这可能是偶然的(尤其是由于 QA 样本量较小)。接下来,我们将使用统计测试来量化由于偶然性而观察到这种差异的可能性。
统计框架¶
¶Z 检验¶
¶$Z = \frac{\bar{X} - \mu}{\sigma}$
¶