详细内容或原文请订阅后点击阅览
调试Python问题的基础
我遇到了99个问题...而Python调试就是所有问题。
来源:KDnuggets曾经运行过Python脚本,并立即希望您不按ENTER?
数据科学中的调试不仅是一种行为;这是一种生存技巧,尤其是在处理凌乱的数据集或设计实际人依赖的预测模型时。
在本文中,我们将探讨调试的基础知识,尤其是在您的数据科学工作流程中,使用Doordash交付工作中的现实生活数据集,最重要的是,如何像专业人士一样调试。
Doordash交付期限预测:我们正在处理什么?
在此数据项目中,Doordash要求其数据科学候选人预测交付持续时间。让我们首先查看数据集信息。这是代码:
项目这是输出:
看来他们没有提供交货时间,因此您应该在此处进行计算。这很简单,但是如果您是初学者,则不会担心。让我们看看如何计算它。
将大熊猫作为pd导入 从DateTime Import DateTime #假设historing_data是您的dataFrame historing_data [“ create_at”] = pd.to_dateTime(historing_data ['create_at']) historing_data [“ MATEA_DELIVERY_TIME”] = PD.TO_DATETIME(historing_data ['actue_delivery_time']) historing_data [“ actual_total_delivery_duration”] =(historing_data [“ actue_delivery_time”] - historing_data [“ created_at”])。dt.t.t.total_seconds() historing_data.head()
这是输出的头部;您可以看到实际_total_delivery_duration。
MATEA_TOTAL_DELIVERY_DURATION
很好,现在我们可以开始了!但是在此之前,这是该数据集的数据定义语言。
historing_data.csv中的列
historing_data.csv
时间功能:
- Market_id:Doordash在其中运营的城市/地区,例如洛杉矶,在数据中以ID.CREATED_AT:UTC中的时间戳为ID。 (注意:此时间戳在UTC中,但是如果您需要它,则该地区的实际时区为美国/太平洋).actual_delivery_time:timestamp in utc中的时间戳,当订单交付给消费者。
商店功能:
create_at