使用 OpenAI 和 PandasAI 进行系列操作

将自然语言查询和操作纳入 Python 数据清理工作流程。艺术家 Karen Walker 捐赠的红熊猫画作。我们在熊猫数据清理项目中需要执行的许多系列操作都可以由 AI 工具(包括 PandasAI)协助完成。PandasAI 利用大型语言模型(例如来自 OpenAI 的模型)来启用对数据列的自然语言查询和操作。在这篇文章中,我们将研究如何使用 PandasAI 查询系列值、创建新系列、有条件地设置系列值以及重塑数据。您可以通过在终端或 Windows Powershell 中输入 pip install pandasai 来安装 PandasAI。您还需要从 openai.com 获取令牌以向 OpenAI API 发送请求。由于 PandasAI 库正在快速发展,您可以根据所使用的 PandasAI 和 pandas 版本预期不同的结果。在本文中,我使用的是 PandasAI 1.4.8 版和 pandas 1.5.3 版。我们将使用美国劳工统计局开展的全国青年纵向研究 (NLS) 的数据。NLS 已对同一批高中生进行了 25 年的调查,并收集了有关教育成果和每年工作周数等许多其他变量的有用数据项。这些数据可在 nlsinfo.org 上供公众使用。(NLS 公开发布的内容受美国政府开放数据政策的约束,该政策允许非商业和商业用途。)

来源:走向数据科学

使用 OpenAI 和 PandasAI 进行系列操作

使用 OpenAI 和 PandasAI 进行系列操作

将自然语言查询和操作纳入 Python 数据清理工作流程。

小熊猫画作由艺术家 Karen Walker 捐赠。
小熊猫画作由艺术家 Karen Walker 捐赠。

我们在熊猫数据清理项目中需要执行的许多系列操作都可以由 AI 工具(包括 PandasAI)协助。 PandasAI 利用大型语言模型(例如来自 OpenAI 的模型)来启用对数据列的自然语言查询和操作。 在本文中,我们将研究如何使用 PandasAI 查询系列值、创建新系列、有条件地设置系列值以及重塑数据。

您可以通过在终端或 Windows Powershell 中输入 pip install pandasai 来安装 PandasAI。您还需要从 openai.com 获取令牌,以便向 OpenAI API 发送请求。

由于 PandasAI 库正在快速发展,您可以根据所使用的 PandasAI 和 pandas 版本预期不同的结果。在本文中,我使用 PandasAI 1.4.8 版和 pandas 1.5.3 版。

我们将使用美国劳工统计局开展的全国青年纵向研究 (NLS) 数据。NLS 已对同一批高中生进行了 25 年以上的调查,并且拥有关于教育成果和每年工作周数等许多其他变量的有用数据项。它可在 nlsinfo.org 上供公众使用。 (NLS 公开版本受美国政府开放数据政策的约束,该政策允许非商业和商业用途。)

开放数据政策 我们的数据世界。 ourworldindata.org/covid-cases GitHub

我们首先从 PandasAI 导入 OpenAI 和 SmartDataframe 模块。我们还必须实例化一个 llm 对象:

import pandas as pdfrom pandasai.llm.openai import OpenAIfrom pandasai import SmartDataframellm = OpenAI(api_token="Your API Token")
聊天 childathome 聊天 聊天 聊天 聊天