T 统计量的案例

以及它与普通 z 分数的比较《T 统计案例》一文首先出现在《走向数据科学》上。

来源:走向数据科学

简介

undefined,我开始思考点异常检测和趋势检测之间的相似之处。当谈到分数时,通常很直观,z 分数可以解决大多数问题。我花了一段时间才弄清楚,对趋势应用某种统计测试——奇异点现在是整个分布,当我观察一个点时,标准差很有意义,但开始感觉完全错误。这就是我所发现的。

为了更容易理解,我在这篇文章中添加了一些我设置的模拟和我因此创建的一些图表。

Z 分数:当他们停止工作时

大多数人在想要发现一些奇怪的东西时就会查看 z 分数。非常简单:

$$ z = \frac{x – \mu}{\sigma} $$

\(x\) 是您的新观察结果,\( \mu \) 是“正常”通常的样子,\( \sigma \) 是事物通常摆动的程度。你得到的数字告诉你:“这一点与群体相差这么多标准差。”

z 为 3?这大致就是“天哪”线——在正态分布下,你只能在大约 0.27% 的时间里看到一些远远超出的东西(双尾)。感觉很干净。感觉很诚实。

为什么它神奇地变成标准正态(快速推导)

以任意普通变量 X ~ N(\( \mu \), \( \sigma^2 \)) 开始。

  • 减去平均值 → \(x – \mu\)。现在中心为零。
  • 除以标准差 → \( (x – \mu) / \sigma \)。现在价差(方差)恰好为 1。
  • 两者都做,你会得到:

    $$ Z = \frac{X – \mu}{\sigma} \sim N(0, 1) $$

    就是这样。任何正常变量,无论其原始平均值或规模如何,都会被压缩并拉伸成我们都记住的相同的无聊钟形曲线。这就是为什么 z 分数感觉很通用——它们让你可以在任何地方使用相同的查找表。

    捕获

    在现实世界中我们几乎永远不知道真正的 \( \mu \) 和 \( \sigma \)。我们根据最近的数据(比如最后 7 个点)来估算它们。

    这是危险的一点:您是否在该窗口中包含当前点?

    P 值

    假设

    结论

    代码