调试Python问题的基础

我遇到了99个问题...而Python调试就是所有问题。

来源:KDnuggets
作者的图像| canva

曾经运行过Python脚本,并立即希望您不按ENTER?

数据科学中的调试不仅是一种行为;这是一种生存技巧,尤其是在处理凌乱的数据集或设计实际人依赖的预测模型时。

在本文中,我们将探讨调试的基础知识,尤其是在您的数据科学工作流程中,使用Doordash交付工作中的现实生活数据集,最重要的是,如何像专业人士一样调试。

Doordash交付期限预测:我们正在处理什么?

在此数据项目中,Doordash要求其数据科学候选人预测交付持续时间。让我们首先查看数据集信息。这是代码:

项目

这是输出:

看来他们没有提供交货时间,因此您应该在此处进行计算。这很简单,但是如果您是初学者,则不会担心。让我们看看如何计算它。

将大熊猫作为pd导入
从DateTime Import DateTime

#假设historing_data是您的dataFrame
historing_data [“ create_at”] = pd.to_dateTime(historing_data ['create_at'])
historing_data [“ MATEA_DELIVERY_TIME”] = PD.TO_DATETIME(historing_data ['actue_delivery_time'])
historing_data [“ actual_total_delivery_duration”] =(historing_data [“ actue_delivery_time”]  -  historing_data [“ created_at”])。dt.t.t.total_seconds()
historing_data.head()

这是输出的头部;您可以看到实际_total_delivery_duration。

MATEA_TOTAL_DELIVERY_DURATION

很好,现在我们可以开始了!但是在此之前,这是该数据集的数据定义语言。

historing_data.csv中的列

historing_data.csv

时间功能:

    Market_id:Doordash在其中运营的城市/地区,例如洛杉矶,在数据中以ID.CREATED_AT:UTC中的时间戳为ID。 (注意:此时间戳在UTC中,但是如果您需要它,则该地区的实际时区为美国/太平洋).actual_delivery_time:timestamp in utc中的时间戳,当订单交付给消费者。

商店功能:

create_at