强大的 EDA 工具:分组聚合

照片由 Mourizal Zativa 在 Unsplash 上拍摄了解如何使用分组聚合从数据中发现见解探索性数据分析 (EDA) 是数据分析师的核心能力。每天,数据分析师的任务都是发现“看不见的”东西,或者从浩瀚的数据中提取有用的见解。在这方面,我想分享一种我认为有助于从数据中提取相关见解的技术:分组聚合。为此,本文的其余部分将安排如下:Pandas 中分组聚合的解释数据集:大都会州际交通大都会交通 EDA分组聚合分组聚合是一种数据处理技术,包含两个步骤。首先,我们根据特定列的值对数据进行分组。其次,我们在分组数据上执行一些聚合操作(例如,求和、平均值、中位数、唯一计数)。当我们的数据很细粒度时,分组聚合特别有用,例如典型的事实表(交易数据)和间隔较窄的时间序列数据。通过在比原始数据粒度更高的级别进行聚合,我们可以用更紧凑的方式表示数据——并且可能在此过程中提取有用的见解。在 pandas 中,我们可以使用以下通用语法形式执行分组聚合。df.groupby(['base_col']).agg( agg_col=('ori_col','agg_func'))其中 base_col 是其值成为分组基础的列,agg_col 是通过对 ori_col 列进行 agg_func 聚合定义的新列。对于

来源:走向数据科学
照片由 Mourizal Zativa 在 Unsplash 上拍摄
照片由 Mourizal Zativa 在 Unsplash 上拍摄
Mourizal Zativa Unsplash

强大的 EDA 工具:分组聚合

强大的 EDA 工具:分组聚合

了解如何使用分组聚合从数据中发现见解

探索性数据分析 (EDA) 是数据分析师的核心能力。每天,数据分析师的任务都是发现“看不见的东西”,或者从浩瀚的数据海洋中提取有用的见解。

在这方面,我想分享一种我认为有助于从数据中提取相关见解的技术:分组聚合。

为此,本文的其余部分将按以下方式安排:

    Pandas 中分组聚合的解释数据集:Metro Interstate TrafficMetro Traffic EDA
  • Pandas 中分组聚合的解释
  • 数据集:Metro Interstate Traffic
  • Metro Traffic EDA
  • 分组聚合

    分组聚合是一种数据处理技术,包含两个步骤。首先,我们根据特定列的值对数据进行分组。其次,我们在分组数据之上执行一些聚合操作(例如,求和、平均值、中位数、计数唯一值)。

    当我们的数据很细粒度时,分组聚合特别有用,例如典型的事实表(交易数据)和间隔较窄的时间序列数据。通过在比原始数据粒度更高的级别进行聚合,我们可以以更紧凑的方式表示数据 - 并可能在此过程中提取有用的见解。

    在 pandas 中,我们可以使用以下通用语法形式执行分组聚合。

    df.groupby(['base_col']).agg( agg_col=('ori_col','agg_func'))
    df.groupby(['base_col']).agg( agg_col=('ori_col','agg_func'))

    其中 base_col 是其值成为分组基础的列,agg_col 是通过对 ori_col 列进行 agg_func 聚合定义的新列。

    base_col agg_col agg_func ori_col

    例如,请考虑臭名昭著的泰坦尼克号数据集,其五行如下所示。

    泰坦尼克号数据的前 5 行(作者提供的图片)
    幸存 票价

    数据集

    is_congested