llms + pandas：我如何使用生成型AI生成pandas dataframe summaries XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

llms + pandas：我如何使用生成型AI生成pandas dataframe summaries

2025年6月3日 00:23 33 Comments

本地大语言模型可以将大量的数据范围转换为可呈现的标记报告 - 这是LLMS + PANDAS的方法：我如何使用生成AI生成PANDAS DataFrame Summaries首先出现在数据科学上。

来源:走向数据科学

数据集，并且正在寻找没有太多手动磨削的快速见解，您来了。

在2025年，数据集通常包含数百万行和数百列，这使得手动分析几乎是不可能的。本地大型语言模型可以将您的原始数据框架统计信息转换为抛光的，可读的报告，几秒钟内（最坏的分钟）。这种方法消除了手工分析数据的繁琐过程，尤其是在数据结构不变的情况下。

pandas处理数据提取的繁重，而LLMS则将您的技术输出转换为可观的报告。您仍然需要编写从数据集中提取关键统计信息的功能，但这是一次性的工作。

本指南假定您在本地安装了Ollama。如果不这样做，您仍然可以使用第三方LLM供应商，但我不会解释如何连接其API。

MBA入学数据集，来自Kaggle 数据集是根据Apache 2.0许可证获得许可的，这意味着您可以在个人和商业项目中自由使用它。 Apache 2.0许可证要开始，您需要在系统上安装一些Python库。图像1 - 所需的Python库和版本（作者图像）一旦安装了所有内容，请在新脚本或笔记本中导入必要的库：导入pandas作为pdfrom langchain_ollama导入contollama from键入导入文字数据集加载和预处理 pandas 图像2 - 基本数据集统计（作者图像） df [“ race”] = df [“ race”]。fillna（“ unknown”）df [gendsions'] = df [“ endission”]。fillna（“ deny”）花很长时间

MBA入学数据集，来自Kaggle

数据集是根据Apache 2.0许可证获得许可的，这意味着您可以在个人和商业项目中自由使用它。

Apache 2.0许可证

要开始，您需要在系统上安装一些Python库。

图像1 - 所需的Python库和版本（作者图像）

一旦安装了所有内容，请在新脚本或笔记本中导入必要的库：

导入pandas作为pdfrom langchain_ollama导入contollama from键入导入文字

数据集加载和预处理

pandas

图像2  - 基本数据集统计（作者图像）

df [“ race”] = df [“ race”]。fillna（“ unknown”）df [gendsions'] = df [“ endission”]。fillna（“ deny”）花很长时间

改进的所需的原始数据提取第三方 race Python 数据 df 统计数据许可证供应商预处理 pandas 意味着图像不变的处理数据数据提取可读的手动根据需要部分导入一次性的可能的 2.0 抛光的安装统计基本数据如果不作者数据集信息转换 fillna 许可的数据结构可观的 Apache 必要的信息的

llms + pandas：我如何使用生成型AI生成pandas dataframe summaries

目录：

导入pandas作为pdfrom langchain_ollama导入contollama from键入导入文字

其他外部链接

Tags

XiaoMi-AI