了解公式之外的卡方检验

分类数据如何成为统计证据。《理解公式之外的卡方检验》一文首先出现在《走向数据科学》上。

来源:走向数据科学

他写了一本儿童读物,并以相同的价格同时以两个版本向市场发行。一个版本是基本的封面设计,而另一个版本是高质量的封面设计,这当然会让他付出更多的代价。

然后,他观察一段时间内的销售情况并收集如下所示的数据。

现在他来找我们,想知道他的书的封面设计是否影响了销量。

从销售数据中,我们可以观察到有两个分类变量。第一个是封面类型,要么高成本,要么低成本;第二个是销售结果,要么卖出去,要么不卖出去。

现在我们想知道这两个分类变量是否相关。

我们知道,当我们需要找到两个分类变量之间的关系时,我们使用卡方检验来检验独立性。

在这种情况下,我们通常会使用Python来应用卡方检验并计算卡方统计量和p值。

代码:

将 numpy 导入为 np

从 scipy.stats 导入 chi2_contingency

# 观察数据

观察到= np.array([

[320, 180],

[350, 150]

])

chi2,p,dof,预期= chi2_contingency(观察到的,校正=假)

print("卡方统计量:", chi2)

print("p 值:", p)

print("自由度:", dof)print("预期频率:\n", 预期)结果:卡方统计量为 4.07,p 值为 0.043,低于 0.05 阈值。这表明封面类型和销量在统计上是相关的。我们现在已经获得了 p 值,但在将其视为决策之前,我们需要了解如何获得该值以及此测试的假设是什么。了解这一点可以帮助我们判断得到的结果是否可靠。现在让我们尝试了解卡方检验实际上是什么。我们有这些数据。通过观察数据,我们可以说,具有高成本封面的书籍销量较高,因此我们可能认为该封面有效。随机性总是会造成不平衡。\[\]其中:j\text{因此, }