llms + pandas:我如何使用生成型AI生成pandas dataframe summaries

本地大语言模型可以将大量的数据范围转换为可呈现的标记报告 - 这是LLMS + PANDAS的方法:我如何使用生成AI生成PANDAS DataFrame Summaries首先出现在数据科学上。

来源:走向数据科学

数据集,并且正在寻找没有太多手动磨削的快速见解,您来了。

在2025年,数据集通常包含数百万行和数百列,这使得手动分析几乎是不可能的。本地大型语言模型可以将您的原始数据框架统计信息转换为抛光的,可读的报告,几秒钟内(最坏的分钟)。这种方法消除了手工分析数据的繁琐过程,尤其是在数据结构不变的情况下。

pandas处理数据提取的繁重,而LLMS则将您的技术输出转换为可观的报告。您仍然需要编写从数据集中提取关键统计信息的功能,但这是一次性的工作。

本指南假定您在本地安装了Ollama。如果不这样做,您仍然可以使用第三方LLM供应商,但我不会解释如何连接其API。

目录:

    数据集简介和探索无聊的部分:提取摘要统计数据很酷的部分:与llmswhat合作,您可以改进
  • 数据集简介和探索
  • 无聊的部分:提取摘要统计
  • 很酷的部分:与LLMS合作
  • 您可以改进的
  • 对于本指南,我正在使用Kaggle的MBA入学数据集。如果您想继续下载,请下载它。

    MBA入学数据集,来自Kaggle 数据集是根据Apache 2.0许可证获得许可的,这意味着您可以在个人和商业项目中自由使用它。 Apache 2.0许可证 要开始,您需要在系统上安装一些Python库。 图像1 - 所需的Python库和版本(作者图像) 一旦安装了所有内容,请在新脚本或笔记本中导入必要的库: 导入pandas作为pdfrom langchain_ollama导入contollama from键入导入文字 数据集加载和预处理 pandas 图像2 - 基本数据集统计(作者图像) df [“ race”] = df [“ race”]。fillna(“ unknown”)df [gendsions'] = df [“ endission”]。fillna(“ deny”) 花很长时间

    MBA入学数据集,来自Kaggle

    数据集是根据Apache 2.0许可证获得许可的,这意味着您可以在个人和商业项目中自由使用它。

    Apache 2.0许可证

    要开始,您需要在系统上安装一些Python库。

    图像1 - 所需的Python库和版本(作者图像)

    一旦安装了所有内容,请在新脚本或笔记本中导入必要的库:

    导入pandas作为pdfrom langchain_ollama导入contollama from键入导入文字

    数据集加载和预处理
    pandas
    图像2  - 基本数据集统计(作者图像)
    df [“ race”] = df [“ race”]。fillna(“ unknown”)df [gendsions'] = df [“ endission”]。fillna(“ deny”)花很长时间