详细内容或原文请订阅后点击阅览
两个方差的故事:为什么 NumPy 和 Pandas 给出不同的答案
假设您正在分析一个小数据集:您想要计算一些汇总统计数据以了解该数据的分布,因此您使用 numpy 来计算均值和方差。你的输出看起来像这样:太棒了!现在您已经了解了数据的分布。然而,你的同事来了……《两个方差的故事:为什么 NumPy 和 Pandas 给出不同的答案》一文首先出现在《走向数据科学》上。
来源:走向数据科学您正在分析一个小数据集:
\[X = [15, 8, 13, 7, 7, 12, 15, 6, 8, 9]\]
您想要计算一些汇总统计量以了解该数据的分布,因此您使用 numpy 来计算均值和方差。
将 numpy 导入为 np
X = [15, 8, 13, 7, 7, 12, 15, 6, 8, 9]
平均值 = np.mean(X)
var = np.var(X)
print(f"平均值={mean:.2f}, 方差={var:.2f}")
您的输出如下所示:
均值=10.00,方差=10.60
太棒了!现在您已经了解了数据的分布。然而,您的同事告诉您,他们还使用以下代码计算了同一数据集的一些汇总统计数据:
将 pandas 导入为 pd
X = pd.Series([15, 8, 13, 7, 7, 12, 15, 6, 8, 9])
平均值 = X.mean()
var = X.var()
print(f"平均值={mean:.2f}, 方差={var:.2f}")
