在数据科学中实际使用的概率概念

我们如何利用不确定性进行推理并根据数据做出更明智的决策?本文解释了数据科学中的关键概率思想。

来源:KDnuggets

简介

进入数据科学领域,您可能被告知必须了解概率。虽然这是事实,但这并不意味着您需要理解和回忆统计教科书中的每个定理。你真正需要的是对实际项目中不断出现的概率想法的实际掌握。

在本文中,我们将重点关注在构建模型、分析数据和进行预测时真正重要的概率要点。在现实世界中,数据是混乱且不确定的。概率为我们提供了量化不确定性并做出明智决策的工具。现在,让我们分解一下您每天都会用到的关键概率概念。

1. 随机变量

随机变量只是一个其值由偶然决定的变量。将其视为一个可以容纳不同值的容器,每个值都有一定的概率。

您将经常使用两种类型:

离散随机变量具有可数值。例如,访问您网站的客户数量(0、1、2、3...)、批次中的缺陷产品数量、抛硬币结果(正面或反面)等等。

连续随机变量可以取给定范围内的任何值。示例包括温度读数、服务器发生故障之前的时间、客户生命周期价值等。

理解这种区别很重要,因为不同类型的变量需要不同的概率分布和分析技术。

2. 概率分布

概率分布描述了随机变量可以采用的所有可能值以及每个值的可能性。每个机器学习模型都会对数据的潜在概率分布做出假设。如果您了解这些分布,您就会知道模型的假设何时有效,何时无效。

正态分布

二项式分布

泊松分布

3. 条件概率

  • \( P(\text{Spam}) \):任何电子邮件为垃圾邮件的总体概率(基本率)
  • \[