作为一名数据科学家,我如何实际使用统计学

在本文中,我将向您展示我如何在数据科学工作中使用统计学的示例,以及我用来获取这些知识的资源。

来源:KDnuggets
图片由 Ideogram 提供

# 简介

#

当您听到数据科学这个词时,您可能会想到两个词:编程和统计。事实上,学习统计学的先决条件常常阻碍人们从事数据职业。大多数数据科学职位描述都让你看起来需要拥有统计学博士学位才​​能在这个职位上茁壮成长,但事实却完全不同,这无济于事。

在大多数数据科学职位中,尤其是在专注于产品开发的科技公司中,您需要了解应用统计学。这涉及使用现有的统计框架来解决业务问题。这与学术统计不同(想想手工计算复杂的公式)。相反,您只需要了解概念的含义、如何使用现有库计算它以及如何解释它。举个例子:在大多数实际的数据科学场景中,了解 p 值 0.03 的含义以及如何使用它来做出业务决策就足够了,而不必知道如何手动计算它。

应用统计

在本文中,我将向您展示我如何在数据科学工作中使用统计学的示例,以及我用来获取这些知识的资源。

# 我如何在数据科学工作中使用统计数据

// 实验

//

大多数科技公司(Google、Meta、Spotify)都有大量的实验文化。他们在进行功能更改之前会进行严格的测试。

执行 A/B 测试时,我需要了解统计概念,例如:

    确定实验所需样本量的统计功效决策的显着性水平、p 值和置信区间
  • 确定实验所需样本量的统计功效
  • 决策的显着性水平、p 值和置信区间
  • // 建模

    然而,根据我的经验,在产品或技术公司工作时,重点更多地放在这些模型的业务影响和解释上,而不是它们背后的数学严谨性。