公共 EDA（第 2 部分）：Pandas 中的产品深度挖掘和时间序列分析 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

公共 EDA（第 2 部分）：Pandas 中的产品深度挖掘和时间序列分析

2025年12月20日 13:00 33 Comments

了解如何分析产品性能、提取时间序列特征以及揭示销售数据中的关键季节性趋势。公共 EDA 帖子（第 2 部分）：Pandas 中的产品深度探究和时间序列分析首先出现在 Towards Data Science 上。

来源:走向数据科学

！欢迎回到“公共 EDA”系列！这是该系列的第 2 部分；如果您还没有看过第 1 部分，请在此处阅读。以下是我们所征服的内容的回顾。

在第 1 部分中，我们整理了一个混乱的、有 50 万行的销售文件，并将其成型。具体来说，我们：

对数据进行采样以加快处理速度。

修复了缺失值和标准化文本条目（例如“EIRE”到“Ireland”）。

过滤掉所有噪音 — 退货、取消和零价格交易。

设计了我们最关键的功能：收入列。

实现了我们的第一个业务洞察：十大创收国家。

我们现在有了一个干净的、可盈利的 Pandas DataFrame，可以用来获取洞察！在本系列结束时，我希望掌握使用 Pandas 进行探索性数据分析。如果您是数据爱好者，请随时关注。

现在，我们将重点转向为 NovaShop 提供真正有影响力的商业智能。我们第 2 部分的总体目标是回答基本问题：哪些产品表现最好，何时是销售它们的最佳时机？

这部分主要是关于使用强大的 Pandas 聚合技术 (.groupby()) 进行分析以及使用日期时间列（.dt 访问器）进行特征工程。我们将分析分为两个关键领域：

产品深入探究：确定销量最多的产品和带来最多现金的产品。

销售时间（时间序列）：揭示销售的季节性（每月峰值）和运营趋势（一天中最繁忙的时间）。

话不多说，让我们开始吧。

为了提高性能，让我们导出清理后的数据集并再次导入以进行分析

df.to_csv('online_retail_clean.csv', index=False)

现在，我可以创建一个新项目并重新开始。

加载包含日期列的 CSV 时，我尝试在 pd.read_csv() 中使用 parse_dates 参数。这节省了我稍后手动转换列类型的步骤，确保日期特征从一开始就是正确的。

输出：

中

领英

推特

影响力开始 csv 提高混乱的洞察关键的 Pandas 强大的系列的干净的手动转换特征使用进行时间序列数据分析数据集正确的收入高性能部分的加载产品标准化分析销售日期提高性能