详细内容或原文请订阅后点击阅览
4 个 Pandas 概念悄然破坏您的数据管道
掌握数据类型、索引对齐和防御性 Pandas 实践,以防止实际数据管道中出现无声错误。帖子 4 Pandas Concepts That Quietly Break Your Data Pipelines 首先出现在 Towards Data Science 上。
来源:走向数据科学开始使用Pandas,我认为我做得很好。
我可以在 Jupyter 笔记本中清理数据集、运行 groupby、合并表以及构建快速分析。大多数教程都让人感觉很简单:加载数据、转换数据、可视化它,然后就完成了。
公平地说,我的代码通常都能工作。
直到它没有。
在某些时候,我开始遇到难以解释的奇怪问题。数字并没有像我预期的那样增加。看起来是数字的列的行为就像文本。有时,转换运行时没有错误,但产生的结果显然是错误的。
令人沮丧的是 Pandas 很少抱怨。
没有明显的异常或崩溃。代码执行得很好 ——它只是产生了不正确的结果。
就在那时,我意识到了一些重要的事情:大多数 Pandas 教程都专注于你可以做什么,但他们很少解释 Pandas 在幕后的实际行为。
诸如:
当你第一次学习 Pandas 时,这些概念不会让人感到兴奋。它们不像 groupby 技巧或花哨的可视化那么华丽。
但它们正是防止现实世界数据管道中出现无声错误的东西。
在本文中,我将介绍大多数教程都会跳过的四个 Pandas 概念 - 那些在我自己的代码中不断导致细微错误的概念。
如果您理解这些想法,您的 Pandas 工作流程将变得更加可靠,尤其是当您的分析开始转变为生产数据管道而不是一次性笔记本时。
让我们从最常见的麻烦来源之一开始:数据类型。
一个小数据集(和一个微妙的错误)
为了使这些想法具体化,让我们使用一个小型电子商务数据集。
假设我们正在分析一家在线商店的订单。每行代表一个订单并包含收入和折扣信息。
输出:
现在让我们回答一个简单的问题:
总收入是多少?
订单["收入"].sum()
750
