详细内容或原文请订阅后点击阅览
我如何使用一个凌乱的 DoorDash 数据集构建数据清理管道
清理 200K+ 食品配送记录,从 DoorDash 构建可靠的机器学习数据集。
来源:KDnuggets# 简介
#根据 CrowdFlower 的调查,数据科学家花费 60% 的时间来组织和清理数据。
CrowdFlower 的调查在本文中,我们将逐步使用 DoorDash 中的真实数据集构建数据清理管道。它包含近 200,000 条食品配送记录,每条记录都包含配送时间、商品总数和商店类别(例如墨西哥菜、泰国菜或美国菜)等数十个特征。
# 使用 DoorDash 数据预测送餐时间
DoorDash 旨在准确估计送餐所需的时间,即从顾客下订单的那一刻到食物到达门口的时间。在这个数据项目中,我们的任务是开发一个模型,根据历史交付数据预测总交付持续时间。
此数据项目但是,我们不会完成整个项目,即我们不会构建预测模型。相反,我们将使用项目中提供的数据集并创建数据清理管道。
我们的工作流程由两个主要步骤组成。
# 数据探索
让我们首先加载并查看数据集的前几行。
// 加载并预览数据集
//将 pandas 导入为 pd
df = pd.read_csv("历史数据.csv")
df.head()
这是输出。
此数据集包含捕获订单创建时间和实际交货时间的日期时间列,可用于计算交货持续时间。它还包含其他功能,例如商店类别、商品总数、小计和最低商品价格,使其适合各种类型的数据分析。我们已经可以看到有一些 NaN 值,我们将在下一步中更仔细地探索它们。
// 使用 info() 探索列
信息()
让我们使用 info() 方法检查所有列名称。我们将在整篇文章中使用这个方法来查看列值计数的变化;它是缺失数据和整体数据健康状况的良好指标。
创建于 实际交货时间# 构建数据清理管道
我们正在修复的内容:
熊猫模式()
