详细内容或原文请订阅后点击阅览
公共 EDA(第 2 部分):Pandas 中的产品深度挖掘和时间序列分析
了解如何分析产品性能、提取时间序列特征以及揭示销售数据中的关键季节性趋势。公共 EDA 帖子(第 2 部分):Pandas 中的产品深度探究和时间序列分析首先出现在 Towards Data Science 上。
来源:走向数据科学!欢迎回到“公共 EDA”系列!这是该系列的第 2 部分;如果您还没有看过第 1 部分,请在此处阅读。以下是我们所征服的内容的回顾。
在第 1 部分中,我们整理了一个混乱的、有 50 万行的销售文件,并将其成型。具体来说,我们:
我们现在有了一个干净的、可盈利的 Pandas DataFrame,可以用来获取洞察!在本系列结束时,我希望掌握使用 Pandas 进行探索性数据分析。如果您是数据爱好者,请随时关注。
现在,我们将重点转向为 NovaShop 提供真正有影响力的商业智能。我们第 2 部分的总体目标是回答基本问题:哪些产品表现最好,何时是销售它们的最佳时机?
这部分主要是关于使用强大的 Pandas 聚合技术 (.groupby()) 进行分析以及使用日期时间列(.dt 访问器)进行特征工程。我们将分析分为两个关键领域:
话不多说,让我们开始吧。
加载干净的数据
为了提高性能,让我们导出清理后的数据集并再次导入以进行分析
df.to_csv('online_retail_clean.csv', index=False)
现在,我可以创建一个新项目并重新开始。
加载包含日期列的 CSV 时,我尝试在 pd.read_csv() 中使用 parse_dates 参数。这节省了我稍后手动转换列类型的步骤,确保日期特征从一开始就是正确的。
输出:
中
领英
推特
