通过 ColPali 将视觉语言智能引入 RAG XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

通过 ColPali 将视觉语言智能引入 RAG

2025年10月29日 17:53 33 Comments

释放知识库中非文本内容的价值这篇文章《与 ColPali 一起将视觉语言智能引入 RAG》首先出现在《走向数据科学》上。

来源:走向数据科学

曾经尝试过构建 RAG（检索增强生成）应用程序，您可能熟悉表格和图像带来的挑战。本文探讨了如何使用视觉语言模型（特别是 ColPali 模型）处理这些格式。

但首先，RAG — 到底是什么？为什么表格和图像使它如此困难？

想象一下您面临这样的问题：

我们公司处理退款的政策是什么？

基础的 LLM（大型语言模型）可能无法回答这个问题，因为此类信息是特定于公司的，通常不包含在模型的训练数据中。

这就是为什么常见的方法是将 LLM 连接到知识库 — 例如包含各种内部文档的 SharePoint 文件夹。这使得模型能够检索并合并相关上下文，从而能够回答需要专业知识的问题。这种技术称为检索增强生成 (RAG)，它通常涉及处理 PDF 等文档。

然而，从庞大且多样化的知识库中提取正确的信息需要大量的文档预处理。常见步骤包括：

解析：将文档解析为文本和图像，通常借助 Tesseract 等光学字符识别 (OCR) 工具。表格最常转换为文本

解析

结构保留：通过将提取的文本转换为保留上下文的格式（例如 Markdown）来维护文档的结构，包括标题、段落

结构保留

分块：拆分或合并文本段落，以便可以将上下文输入到上下文窗口中，而不会导致段落显得脱节

分块

丰富：提供额外的元数据，例如提取关键字或提供块的摘要以方便发现。或者，还可以通过多模式 LLM 为图像添加描述性文本，以使图像可搜索

丰富嵌入

来源：作者提供的图片。