如何将视觉语言模型应用于长文档

了解如何应用强大的 VLM 来执行长上下文文档理解任务《如何将视觉语言模型应用于长文档》一文首先出现在《走向数据科学》上。

来源:走向数据科学

是强大的模型,它以图像作为输入,而不是像传统法学硕士那样的文本。这开辟了很多可能性,考虑到我们可以直接处理文档的内容,而不是使用 OCR 来提取文本,然后将该文本输入到 LLM 中。

在本文中,我将讨论如何应用视觉语言模型 (VLM) 来执行长上下文文档理解任务。这意味着将 VLM 应用于超过 100 页的超长文档或包含大量信息的密集文档(例如绘图)。我将讨论应用 VLM 时要考虑的事项,以及可以使用它们执行哪些任务。

此信息图突出显示了本文的主要内容。我将介绍为什么 VLM 如此重要,以及如何将它们应用于长文档。例如,您可以使用 VLM 进行更高级的 OCR,将更多文档信息合并到提取的文本中。此外,您可以将 VLM 直接应用于文档的图像,但您必须考虑所需的处理能力、成本和延迟。图片由 ChatGPT 提供。

为什么我们需要 VLM?

我在之前的文章中多次讨论了 VLM,并介绍了为什么它们对于理解某些文档的内容如此重要。需要 VLM 的主要原因是文档中的大量信息需要视觉输入才能理解。

VLM 的替代方案是使用 OCR,然后使用 LLM。这里的问题是您只从文档中提取文本,而不包括视觉信息,例如:

    不同文本相对于其他文本的位置非文本信息(基本上不是字母的所有内容,例如符号或绘图)文本相对于其他信息的位置
  • 不同文本相对于其他文本的位置
  • 非文本信息(基本上是非字母的所有内容,例如符号或图画)
  • 文本相对于其他信息的位置
  • 使用 VLM 进行 OCR

  • 提取 Markdown
  • 日期 日期 <空>

    降价

    成本