通过 ColPali 将视觉语言智能引入 RAG

释放知识库中非文本内容的价值这篇文章《与 ColPali 一起将视觉语言智能引入 RAG》首先出现在《走向数据科学》上。

来源:走向数据科学

曾经尝试过构建 RAG(检索增强生成)应用程序,您可能熟悉表格和图像带来的挑战。本文探讨了如何使用视觉语言模型(特别是 ColPali 模型)处理这些格式。

但首先,RAG —  到底是什么?为什么表格和图像使它如此困难?

RAG 和解析

想象一下您面临这样的问题:

我们公司处理退款的政策是什么?

基础的 LLM(大型语言模型)可能无法回答这个问题,因为此类信息是特定于公司的,通常不包含在模型的训练数据中。

这就是为什么常见的方法是将 LLM 连接到知识库  — 例如包含各种内部文档的 SharePoint 文件夹。这使得模型能够检索并合并相关上下文,从而能够回答需要专业知识的问题。这种技术称为检索增强生成 (RAG),它通常涉及处理 PDF 等文档。

然而,从庞大且多样化的知识库中提取正确的信息需要大量的文档预处理。常见步骤包括:

  • 解析:将文档解析为文本和图像,通常借助 Tesseract 等光学字符识别 (OCR) 工具。表格最常转换为文本
  • 解析
  • 结构保留:通过将提取的文本转换为保留上下文的格式(例如 Markdown)来维护文档的结构,包括标题、段落
  • 结构保留
  • 分块:拆分或合并文本段落,以便可以将上下文输入到上下文窗口中,而不会导致段落显得脱节
  • 分块
  • 丰富:提供额外的元数据,例如提取关键字或提供块的摘要以方便发现。或者,还可以通过多模式 LLM 为图像添加描述性文本,以使图像可搜索
  • 丰富 嵌入

    为什么解析经常失败

    来源:作者提供的图片。