保持概率诚实:雅可比调整

正确转换随机变量的直观解释。保持概率诚实:雅可比调整首先出现在走向数据科学上。

来源:走向数据科学

简介

客户因等待时间而烦恼。呼叫是随机到达的,因此等待时间 X 遵循指数分布 — 大多数等待时间很短,少数等待时间却长得令人痛苦。

现在我认为烦恼不是线性的:等待 10 分钟的感觉比等待 5 分钟的感觉要糟糕两倍多。因此,您决定将“烦恼单位”建模为 \(Y = X²\)。

很简单吧?只需获取 X 的 pdf,将 x 替换为 \(\sqrt{y}\),就完成了。

你绘制它。它看起来很合理——峰值接近于零,长尾。

但是如果您实际计算了 CDF 会怎样?你会期望 1 对吗?

结果? 2.

将 numpy 导入为 np

将 matplotlib.pyplot 导入为 plt

从 scipy.stats 导入指数

# 指数 (1) 的 CDF:F(x) = 1 - exp(-x) for x >= 0

def cdf_exp(x):

返回 1 - np.exp(-x)

# Y = X² 的错误(天真的)pdf:只需替换 x = sqrt(y)

def错误_pdf(y):

return np.exp(-np.sqrt(y)) # 积分为 2!# 积分的快速数值检查从 scipy.integrate 导入四元组积分,err = 四边形(wrong_pdf,0,np.inf)print(f"数值积分 ≈ {integral:.3f} (应该是 1,但它是 2)")# 打印 2您的新分布声称每种可能结果的可能性都是应有的两倍。那是不可能的……但它发生是因为你错过了一个小调整。这种“调整”就是雅可比行列式——一种缩放因子,用于补偿变换在不同点处拉伸或压缩轴的方式。跳过它,你的概率就会撒谎。包括它,一切都会再次完美地加起来。在这篇文章中,我们将建立直觉,逐步推导数学,看到它自然地出现在直方图均衡中,根据经验可视化拉伸/收缩,并通过模拟证明它。直觉现在,当您变换随机变量(例如,从 X 到 Y = X²)时,就像抓住那条数轴(一块柔性橡胶板)并根据变换扭曲它。您不是添加或移除沙子;而是添加或移除沙子。您只是拉伸或压缩纸张的不同部分。数学保存概率:所以代码