5个可以处理数据科学家的常规任务

Chatgpt如何处理清洁,探索,可视化,建模等的实际演练。

来源:KDnuggets
作者的图像| canva

根据Anaconda的数据科学报告,数据科学家将近60%的时间用于清洁和组织数据。这些是例行的,耗时的任务,使他们成为Chatgpt接管的理想候选人。

anaconda

在本文中,我们将探索五个例行任务,如果您使用正确的提示,包括清洁和组织数据,可以处理这些任务。我们将使用类似于Uber的伦敦黑色出租车应用Gett的真实数据项目,以展示其在实践中的工作方式。

案例研究:分析Gett

在此数据项目中,Gett要求您通过检查钥匙匹配度量标准来了解为什么某些客户没有成功获得汽车来分析失败的骑手订单。

此数据项目

这是数据描述。

现在,让我们通过将数据上传到chatgpt来探索它。

在接下来的五个步骤中,我们将浏览Chatgpt可以在数据项目中处理的常规任务。这些步骤如下所示。

步骤1:数据探索和分析

在数据探索中,我们每次都使用相同的功能,例如头部,信息或描述。

信息 描述

当我们询问chatgpt时,我们将在提示符中包含关键功能。我们还将粘贴项目描述并附加数据集。

我们将使用以下提示。只需用项目描述替换方括号内的文本即可。您可以在此处找到项目描述:

在这里
这是数据项目描述:[粘贴在这里] 
执行基本的EDA,显示头,信息和摘要统计数据,缺失值和相关热图。

这是输出。

您可以看到,Chatgpt通过突出显示关键列,缺失值,然后创建一个相关热图来总结数据集,以探索关系。

步骤2:数据清洁

两个数据集都包含缺失值。

让我们写一个提示以对此进行努力。

这是Chatgpt所做的摘要:

chatgpt转换了日期列,丢弃了无效的订单,并将丢失值归为m_order_eta。