代理指针 RAG:没有多模态嵌入的多模态答案

结构就是你所需要的 Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings 首先出现在 Towards Data Science 上。

来源:走向数据科学

一图抵一千字。然而,很少有企业聊天机器人能够可靠地返回基于其源文档的图像。

这是为什么呢?

原因是,虽然这对于纯文本用户体验来说是一个显着的增强,但很难可靠且一致地做到。然而,不乏这种价值无可估量的用例。从房地产项目的客户到查询最新机器参数的服务技术人员,用户绝对希望看到有针对性的相关财产图像和维护表作为响应的一部分。相反,我们能做的最好的事情就是获得包含源文档(小册子、视频、手册)和网页链接的回复。

在本文中,我将介绍一个开源的 MultiModal Proxy-Pointer RAG 管道,它可以实现这一点,主要是因为它将文档视为语义块的分层树,而不是需要盲目地分解为块来回答查询的词袋。

这是我之前关于 Proxy-Pointer RAG 的文章的后续文章,我在其中详细探讨了架构原理和实现。在这里,我们将探讨以下内容:

  • 为什么多模态响应是一个难以解决的问题?目前可以应用的技术有哪些?
  • Proxy-Pointer 如何通过纯文本管道实现完全可扩展性和最低成本 — 无需多模式嵌入
  • 带有测试查询的工作原型,供您尝试使用开源存储库。
  • 让我们开始吧。

    多模态和普通 RAG

    当我们想到多模式 RAG 时,它几乎总是意味着您可以使用图像和文本查询来搜索知识库。很少有相反的情况。要了解原因,让我们看看通常如何完成此操作的可能方法:

    图像标题

    多模态嵌入

    让我们看看这在实践中是如何运作的。

    原型设置

    多模式代理指针架构

    这是索引管道:

    结果

    LLM 非决定论