我如何使用一个凌乱的 DoorDash 数据集构建数据清理管道 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

我如何使用一个凌乱的 DoorDash 数据集构建数据清理管道

2025年10月16日 16:43 33 Comments

清理 200K+ 食品配送记录，从 DoorDash 构建可靠的机器学习数据集。

来源:KDnuggets

图片由编辑提供

根据 CrowdFlower 的调查，数据科学家花费 60% 的时间来组织和清理数据。

CrowdFlower 的调查

在本文中，我们将逐步使用 DoorDash 中的真实数据集构建数据清理管道。它包含近 200,000 条食品配送记录，每条记录都包含配送时间、商品总数和商店类别（例如墨西哥菜、泰国菜或美国菜）等数十个特征。

DoorDash 旨在准确估计送餐所需的时间，即从顾客下订单的那一刻到食物到达门口的时间。在这个数据项目中，我们的任务是开发一个模型，根据历史交付数据预测总交付持续时间。

此数据项目

但是，我们不会完成整个项目，即我们不会构建预测模型。相反，我们将使用项目中提供的数据集并创建数据清理管道。

我们的工作流程由两个主要步骤组成。

让我们首先加载并查看数据集的前几行。

将 pandas 导入为 pd
df = pd.read_csv("历史数据.csv")
df.head()

这是输出。

此数据集包含捕获订单创建时间和实际交货时间的日期时间列，可用于计算交货持续时间。它还包含其他功能，例如商店类别、商品总数、小计和最低商品价格，使其适合各种类型的数据分析。我们已经可以看到有一些 NaN 值，我们将在下一步中更仔细地探索它们。

信息()

让我们使用 info() 方法检查所有列名称。我们将在整篇文章中使用这个方法来查看列值计数的变化；它是缺失数据和整体数据健康状况的良好指标。

创建于 实际交货时间

我们正在修复的内容：

熊猫 模式()

数据集送餐时间的持续时间预测修复的美国所需的管道使用包含 pd 订单的创建仔细地 DoorDash 计数的商品时间清理项目交货时间方法数据分析 CrowdFlower " 根据健康状况数据项科学家数据