详细内容或原文请订阅后点击阅览
T 统计量的案例
以及它与普通 z 分数的比较《T 统计案例》一文首先出现在《走向数据科学》上。
来源:走向数据科学简介
undefined,我开始思考点异常检测和趋势检测之间的相似之处。当谈到分数时,通常很直观,z 分数可以解决大多数问题。我花了一段时间才弄清楚,对趋势应用某种统计测试——奇异点现在是整个分布,当我观察一个点时,标准差很有意义,但开始感觉完全错误。这就是我所发现的。
为了更容易理解,我在这篇文章中添加了一些我设置的模拟和我因此创建的一些图表。
Z 分数:当他们停止工作时
大多数人在想要发现一些奇怪的东西时就会查看 z 分数。非常简单:
$$ z = \frac{x – \mu}{\sigma} $$
\(x\) 是您的新观察结果,\( \mu \) 是“正常”通常的样子,\( \sigma \) 是事物通常摆动的程度。你得到的数字告诉你:“这一点与群体相差这么多标准差。”
z 为 3?这大致就是“天哪”线——在正态分布下,你只能在大约 0.27% 的时间里看到一些远远超出的东西(双尾)。感觉很干净。感觉很诚实。
为什么它神奇地变成标准正态(快速推导)
以任意普通变量 X ~ N(\( \mu \), \( \sigma^2 \)) 开始。
两者都做,你会得到:
$$ Z = \frac{X – \mu}{\sigma} \sim N(0, 1) $$
就是这样。任何正常变量,无论其原始平均值或规模如何,都会被压缩并拉伸成我们都记住的相同的无聊钟形曲线。这就是为什么 z 分数感觉很通用——它们让你可以在任何地方使用相同的查找表。
捕获
在现实世界中我们几乎永远不知道真正的 \( \mu \) 和 \( \sigma \)。我们根据最近的数据(比如最后 7 个点)来估算它们。
这是危险的一点:您是否在该窗口中包含当前点?
