详细内容或原文请订阅后点击阅览
利用熊猫和sql一起进行有效的数据分析
在解决现实世界中的Uber数据项目时,学会利用大熊猫和SQL在一起。
来源:KDnuggetspandas和sql均对数据分析有效,但是如果我们可以合并其权力怎么办?使用PandasQL,您可以在Jupyter笔记本中直接编写SQL查询。这种集成无缝使我们能够将SQL逻辑与Python融合以进行有效的数据分析。
pandasql在本文中,我们将在Uber的数据项目上一起使用PANDA和SQL。让我们开始吧!
#什么是pandasql?
#pandasql可以通过内存SQLite引擎与任何数据框集成,因此您可以在Python环境中编写纯SQL。
sqlite#使用pandas和sql在一起的优点
sql对于轻松过滤行,集合数据或应用多条件逻辑。
#如何在jupyter笔记本中运行pandasql?
要在jupyter笔记本中运行pandasql,请从以下代码开始。
将大熊猫作为pd导入 从pandasql导入sqldf run = lambda q:sqldf(q,globals())
接下来,您可以按以下方式运行SQL代码:
run(“”“” 选择 * 来自DF 限制10; “”)
我们将使用SQL代码,而无需每次在本文中显示运行函数。
运行
让我们看看如何在Uber的现实生活项目中使用SQL和Pandas一起工作。
#现实世界项目:分析Uber驱动程序性能数据
在此数据项目中,Uber要求我们分析驾驶员绩效数据并评估奖励策略。
数据项目//数据探索和分析
//现在,让我们探索数据集。首先,我们将加载数据。
//初始数据集加载
让我们只使用熊猫加载数据集。
将大熊猫作为pd导入 导入numpy作为NP df = pd.read_csv('dataset_2.csv')
//探索数据
现在让我们查看数据集。
输出看起来像这样:
这是输出。
#问题1:谁有资格获得奖金选项1?
其中
和