我如何使用一个凌乱的 DoorDash 数据集构建数据清理管道

清理 200K+ 食品配送记录,从 DoorDash 构建可靠的机器学习数据集。

来源:KDnuggets
图片由编辑提供

# 简介

#

根据 CrowdFlower 的调查,数据科学家花费 60% 的时间来组织和清理数据。

CrowdFlower 的调查

在本文中,我们将逐步使用 DoorDash 中的真实数据集构建数据清理管道。它包含近 200,000 条食品配送记录,每条记录都包含配送时间、商品总数和商店类别(例如墨西哥菜、泰国菜或美国菜)等数十个特征。

# 使用 DoorDash 数据预测送餐时间

DoorDash 旨在准确估计送餐所需的时间,即从顾客下订单的那一刻到食物到达门口的时间。在这个数据项目中,我们的任务是开发一个模型,根据历史交付数据预测总交付持续时间。

此数据项目

但是,我们不会完成整个项目,即我们不会构建预测模型。相反,我们将使用项目中提供的数据集并创建数据清理管道。

我们的工作流程由两个主要步骤组成。

# 数据探索

让我们首先加载并查看数据集的前几行。

// 加载并预览数据集

//
将 pandas 导入为 pd
df = pd.read_csv("历史数据.csv")
df.head()

这是输出。

此数据集包含捕获订单创建时间和实际交货时间的日期时间列,可用于计算交货持续时间。它还包含其他功能,例如商店类别、商品总数、小计和最低商品价格,使其适合各种类型的数据分析。我们已经可以看到有一些 NaN 值,我们将在下一步中更仔细地探索它们。

// 使用 info() 探索列

信息()

让我们使用 info() 方法检查所有列名称。我们将在整篇文章中使用这个方法来查看列值计数的变化;它是缺失数据和整体数据健康状况的良好指标。

创建于 实际交货时间

# 构建数据清理管道

我们正在修复的内容:

熊猫 模式()