每个数据科学家都应该掌握的 7 个统计概念(以及原因)

理解数据从统计开始。这 7 个统计概念为您提供自信地分析和解释的基础。

来源:KDnuggets

简介

人们很容易陷入数据科学的技术方面,例如完善 SQL 和 pandas 技能、学习机器学习框架以及掌握 Scikit-Learn 等库。这些技能很有价值,但它们只能让你走到这一步。如果不能充分掌握工作背后的统计数据,就很难判断你的模型何时值得信赖,你的见解何时有意义,或者你的数据何时可能会误导你。

最好的数据科学家不仅仅是熟练的程序员;他们对数据也有很强的理解。他们知道如何解释不确定性、重要性、变异和偏差,这有助于他们评估结果是否可靠并做出明智的决策。

在本文中,我们将探讨数据科学中反复出现的七个核心统计概念,例如 A/B 测试、预测建模和数据驱动决策。我们将首先看看统计意义和实际意义之间的区别。

1. 区分统计意义和实际意义

这是您经常遇到的情况:您在网站上运行 A/B 测试。版本 B 的转化率比版本 A 高 0.5%。p 值为 0.03(具有统计显着性!)。您的经理问:“我们应该发布 B 版吗?”

答案可能会让您感到惊讶:也许不是。仅仅因为某件事具有统计意义并不意味着它在现实世界中很重要。

  • 统计显着性告诉您效果是否真实(不是偶然)
  • 实际意义告诉你这个影响是否大到值得关心
  • 始终与 p 值一起计算效应大小和业务影响。统计显着性告诉您效果是真实的。实际意义告诉你是否应该关心。

    2. 认识并解决抽样偏差

    当您的样本与您想要了解的总体存在系统性差异时,就会发生抽样偏差。这是模型在生产中失败的最常见原因之一。