详细内容或原文请订阅后点击阅览
公共 EDA(第 1 部分):使用 Pandas 清理和探索销售数据
大家好!欢迎开始我称之为“公共 EDA”的重要数据之旅。对于那些了解我的人来说,我相信学习任何东西的最好方法就是解决现实世界的问题并分享整个混乱的过程——包括错误、胜利以及中间的一切。如果您一直在寻求提升 [...]公共 EDA 帖子(第 1 部分):使用 Pandas 清理和探索销售数据首先出现在走向数据科学上。
来源:走向数据科学!欢迎开始我称之为“公共 EDA”的重要数据之旅。对于那些了解我的人来说,我相信学习任何东西的最好方法就是解决现实世界的问题并分享整个混乱的过程 ——包括错误、胜利以及其间的一切。如果您一直希望提高 Pandas 和数据分析技能,那么这个系列就是适合您的。
我们将担任一家虚构的中型电子商务公司(我称之为 NovaShop)的数据分析师。他们给了我们一份原始的、混乱的销售 CSV 并问了一个简单的问题:“我们做得怎么样?”
第 1 部分的目标是基础性的:我们将清理这个具有挑战性的电子商务数据集,探索其基本结构,并掌握每个数据科学家每天都会使用的 Pandas 核心 EDA 技能。本系列旨在引导您从初学者(第 1 部分)到高级数据分析师(第 3 部分),因此无论您处于哪个阶段,都可以随时加入。
在我们开始编写代码之前,让我们先确定一下我们的核心动机。对于 NovaShop,我们需要回答一些简单但有力的问题:哪些产品带来的收入最多?哪些国家的销售额最高?让我们来看看吧。
数据集概述:解压销售数据
为了开始对 NovaShop 进行分析,我们将使用 UCI 在线零售数据集。这是一个出色的、高度真实的、非简化的数据集,捕获了一家总部位于英国的无商店在线零售公司在 2010 年底至 2011 年底之间的所有交易。
此数据集已获得 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可的许可。
只要给予适当的认可,就可以出于任何目的共享和改编数据集。
该数据集包含超过 50 万行,并且充满了您在现实世界中遇到的各种异常 — 缺失值、负数和不一致的文本格式。这正是我们想要的!
以下是我们将使用的八个关键专栏,以及它们从业务角度告诉我们的内容:
输出:
(541909, 8)
