公共 EDA(第 2 部分):Pandas 中的产品深度挖掘和时间序列分析

了解如何分析产品性能、提取时间序列特征以及揭示销售数据中的关键季节性趋势。公共 EDA 帖子(第 2 部分):Pandas 中的产品深度探究和时间序列分析首先出现在 Towards Data Science 上。

来源:走向数据科学

!欢迎回到“公共 EDA”系列!这是该系列的第 2 部分;如果您还没有看过第 1 部分,请在此处阅读。以下是我们所征服的内容的回顾。

在第 1 部分中,我们整理了一个混乱的、有 50 万行的销售文件,并将其成型。具体来说,我们:

  • 对数据进行采样以加快处理速度。
  • 修复了缺失值和标准化文本条目(例如“EIRE”到“Ireland”)。
  • 过滤掉所有噪音 — 退货、取消和零价格交易。
  • 设计了我们最关键的功能:收入列。
  • 实现了我们的第一个业务洞察:十大创收国家。
  • 我们现在有了一个干净的、可盈利的 Pandas DataFrame,可以用来获取洞察!在本系列结束时,我希望掌握使用 Pandas 进行探索性数据分析。如果您是数据爱好者,请随时关注。

    现在,我们将重点转向为 NovaShop 提供真正有影响力的商业智能。我们第 2 部分的总体目标是回答基本问题:哪些产品表现最好,何时是销售它们的最佳时机?

    这部分主要是关于使用强大的 Pandas 聚合技术 (.groupby()) 进行分析以及使用日期时间列(.dt 访问器)进行特征工程。我们将分析分为两个关键领域:

  • 产品深入探究:确定销量最多的产品和带来最多现金的产品。
  • 销售时间(时间序列):揭示销售的季节性(每月峰值)和运营趋势(一天中最繁忙的时间)。
  • 话不多说,让我们开始吧。

    加载干净的数据

    为了提高性能,让我们导出清理后的数据集并再次导入以进行分析

    df.to_csv('online_retail_clean.csv', index=False)

    现在,我可以创建一个新项目并重新开始。

    加载包含日期列的 CSV 时,我尝试在 pd.read_csv() 中使用 parse_dates 参数。这节省了我稍后手动转换列类型的步骤,确保日期特征从一开始就是正确的。

    输出:

    领英

    推特