构建可响应源中的文本、图像和表格的多模式 RAG

为什么很少有聊天机器人在其响应中返回源文档中的数字?构建一个响应源文本、图像和表格的多模式 RAG 帖子首先出现在 Towards Data Science 上。

来源:走向数据科学

Generation (RAG) 是生成式人工智能最早、最成功的应用之一。然而,很少有聊天机器人会从源文档中返回图像、表格和图形以及文本答案。

一代 (RAG) 图像、表格和图形

在这篇文章中,我探讨了为什么构建一个可靠、真正多模式的 RAG 系统很困难,尤其是对于复杂的文档,例如研究论文和公司报告 ——它们通常包含密集的文本、公式、表格和图表。

复杂文档

另外,我在这里提出了一种改进的多模式 RAG 管道的方法,该方法可以在这些文档类型中提供一致、高质量的多模式结果。

改进的多模式 RAG 管道

数据集和设置

为了说明这一点,我使用以下文档构建了一个小型多模式知识库:

    完全微调的 CLIP 模型是高效的少样本学习者VectorPainter:使用笔划式先验的高级风格化矢量图形合成金融服务营销策略:为科特迪瓦木薯、玉米和车前草价值链的种植和加工提供融资
  • 完全微调的 CLIP 模型是高效的少样本学习器
  • VectorPainter:使用笔划样式先验进行高级风格化矢量图形合成
  • 金融服务营销策略:为科特迪瓦木薯、玉米和大蕉价值链的农业和加工提供融资
  • 使用的语言模型是 GPT-4o,对于嵌入,我使用了 text-embedding-3-small。

    GPT-4o 文本嵌入-3-小

    标准多模式 RAG 架构

    理论上,多模式 RAG 机器人应该:

      接受文本和图像查询。返回文本和图像响应。从文本和图像源检索上下文。
  • 接受文本和图像查询。
  • 文本和图像
  • 返回文本和图像响应。
  • 从文本和图像源中检索上下文。
  • 上下文

    典型的管道如下所示:

      摄取
  • 解析和分块:将文档拆分为文本段并提取图像。
  • 解析和分块: 图片摘要: 多向量嵌入:

    2. 索引

    3.检索

    4. 生成