利用熊猫和sql一起进行有效的数据分析

在解决现实世界中的Uber数据项目时,学会利用大熊猫和SQL在一起。

来源:KDnuggets
作者的图像| canva

pandas和sql均对数据分析有效,但是如果我们可以合并其权力怎么办?使用PandasQL,您可以在Jupyter笔记本中直接编写SQL查询。这种集成无缝使我们能够将SQL逻辑与Python融合以进行有效的数据分析。

pandasql

在本文中,我们将在Uber的数据项目上一起使用PANDA和SQL。让我们开始吧!

#什么是pandasql?

pandasql可以通过内存SQLite引擎与任何数据框集成,因此您可以在Python环境中编写纯SQL。

sqlite

#使用pandas和sql在一起的优点

sql对于轻松过滤行,集合数据或应用多条件逻辑。

#如何在jupyter笔记本中运行pandasql?

要在jupyter笔记本中运行pandasql,请从以下代码开始。

将大熊猫作为pd导入
从pandasql导入sqldf
run = lambda q:sqldf(q,globals())

接下来,您可以按以下方式运行SQL代码:

run(“”“”
选择 *
来自DF
限制10;
“”)

我们将使用SQL代码,而无需每次在本文中显示运行函数。

运行

让我们看看如何在Uber的现实生活项目中使用SQL和Pandas一起工作。

#现实世界项目:分析Uber驱动程序性能数据

作者的图像

在此数据项目中,Uber要求我们分析驾驶员绩效数据并评估奖励策略。

数据项目

//数据探索和分析

//

现在,让我们探索数据集。首先,我们将加载数据。

//初始数据集加载

让我们只使用熊猫加载数据集。

将大熊猫作为pd导入
导入numpy作为NP
df = pd.read_csv('dataset_2.csv')

//探索数据

现在让我们查看数据集。

输出看起来像这样:

这是输出。

#问题1:谁有资格获得奖金选项1?

其中