详细内容或原文请订阅后点击阅览
llms + pandas:我如何使用生成型AI生成pandas dataframe summaries
本地大语言模型可以将大量的数据范围转换为可呈现的标记报告 - 这是LLMS + PANDAS的方法:我如何使用生成AI生成PANDAS DataFrame Summaries首先出现在数据科学上。
来源:走向数据科学数据集,并且正在寻找没有太多手动磨削的快速见解,您来了。
在2025年,数据集通常包含数百万行和数百列,这使得手动分析几乎是不可能的。本地大型语言模型可以将您的原始数据框架统计信息转换为抛光的,可读的报告,几秒钟内(最坏的分钟)。这种方法消除了手工分析数据的繁琐过程,尤其是在数据结构不变的情况下。
pandas处理数据提取的繁重,而LLMS则将您的技术输出转换为可观的报告。您仍然需要编写从数据集中提取关键统计信息的功能,但这是一次性的工作。
本指南假定您在本地安装了Ollama。如果不这样做,您仍然可以使用第三方LLM供应商,但我不会解释如何连接其API。
目录:
- 数据集简介和探索无聊的部分:提取摘要统计数据很酷的部分:与llmswhat合作,您可以改进
对于本指南,我正在使用Kaggle的MBA入学数据集。如果您想继续下载,请下载它。
MBA入学数据集,来自Kaggle 数据集是根据Apache 2.0许可证获得许可的,这意味着您可以在个人和商业项目中自由使用它。 Apache 2.0许可证 要开始,您需要在系统上安装一些Python库。 图像1 - 所需的Python库和版本(作者图像) 一旦安装了所有内容,请在新脚本或笔记本中导入必要的库: 导入pandas作为pdfrom langchain_ollama导入contollama from键入导入文字 数据集加载和预处理 pandas 图像2 - 基本数据集统计(作者图像) df [“ race”] = df [“ race”]。fillna(“ unknown”)df [gendsions'] = df [“ endission”]。fillna(“ deny”) 花很长时间MBA入学数据集,来自Kaggle
数据集是根据Apache 2.0许可证获得许可的,这意味着您可以在个人和商业项目中自由使用它。Apache 2.0许可证
图像1 - 所需的Python库和版本(作者图像)
一旦安装了所有内容,请在新脚本或笔记本中导入必要的库:
导入pandas作为pdfrom langchain_ollama导入contollama from键入导入文字
数据集加载和预处理图像2 - 基本数据集统计(作者图像)df [“ race”] = df [“ race”]。fillna(“ unknown”)df [gendsions'] = df [“ endission”]。fillna(“ deny”)花很长时间