详细内容或原文请订阅后点击阅览
强大的 EDA 工具:分组聚合
照片由 Mourizal Zativa 在 Unsplash 上拍摄了解如何使用分组聚合从数据中发现见解探索性数据分析 (EDA) 是数据分析师的核心能力。每天,数据分析师的任务都是发现“看不见的”东西,或者从浩瀚的数据中提取有用的见解。在这方面,我想分享一种我认为有助于从数据中提取相关见解的技术:分组聚合。为此,本文的其余部分将安排如下:Pandas 中分组聚合的解释数据集:大都会州际交通大都会交通 EDA分组聚合分组聚合是一种数据处理技术,包含两个步骤。首先,我们根据特定列的值对数据进行分组。其次,我们在分组数据上执行一些聚合操作(例如,求和、平均值、中位数、唯一计数)。当我们的数据很细粒度时,分组聚合特别有用,例如典型的事实表(交易数据)和间隔较窄的时间序列数据。通过在比原始数据粒度更高的级别进行聚合,我们可以用更紧凑的方式表示数据——并且可能在此过程中提取有用的见解。在 pandas 中,我们可以使用以下通用语法形式执行分组聚合。df.groupby(['base_col']).agg( agg_col=('ori_col','agg_func'))其中 base_col 是其值成为分组基础的列,agg_col 是通过对 ori_col 列进行 agg_func 聚合定义的新列。对于
来源:走向数据科学强大的 EDA 工具:分组聚合
强大的 EDA 工具:分组聚合
了解如何使用分组聚合从数据中发现见解
探索性数据分析 (EDA) 是数据分析师的核心能力。每天,数据分析师的任务都是发现“看不见的东西”,或者从浩瀚的数据海洋中提取有用的见解。
在这方面,我想分享一种我认为有助于从数据中提取相关见解的技术:分组聚合。
为此,本文的其余部分将按以下方式安排:
- Pandas 中分组聚合的解释数据集:Metro Interstate TrafficMetro Traffic EDA
分组聚合
分组聚合是一种数据处理技术,包含两个步骤。首先,我们根据特定列的值对数据进行分组。其次,我们在分组数据之上执行一些聚合操作(例如,求和、平均值、中位数、计数唯一值)。
当我们的数据很细粒度时,分组聚合特别有用,例如典型的事实表(交易数据)和间隔较窄的时间序列数据。通过在比原始数据粒度更高的级别进行聚合,我们可以以更紧凑的方式表示数据 - 并可能在此过程中提取有用的见解。
在 pandas 中,我们可以使用以下通用语法形式执行分组聚合。
df.groupby(['base_col']).agg( agg_col=('ori_col','agg_func'))df.groupby(['base_col']).agg( agg_col=('ori_col','agg_func'))
其中 base_col 是其值成为分组基础的列,agg_col 是通过对 ori_col 列进行 agg_func 聚合定义的新列。
base_col
agg_col
agg_func
ori_col
例如,请考虑臭名昭著的泰坦尼克号数据集,其五行如下所示。
幸存
票价
数据集
is_congested