详细内容或原文请订阅后点击阅览
如何将视觉语言模型应用于长文档
了解如何应用强大的 VLM 来执行长上下文文档理解任务《如何将视觉语言模型应用于长文档》一文首先出现在《走向数据科学》上。
来源:走向数据科学是强大的模型,它以图像作为输入,而不是像传统法学硕士那样的文本。这开辟了很多可能性,考虑到我们可以直接处理文档的内容,而不是使用 OCR 来提取文本,然后将该文本输入到 LLM 中。
在本文中,我将讨论如何应用视觉语言模型 (VLM) 来执行长上下文文档理解任务。这意味着将 VLM 应用于超过 100 页的超长文档或包含大量信息的密集文档(例如绘图)。我将讨论应用 VLM 时要考虑的事项,以及可以使用它们执行哪些任务。
为什么我们需要 VLM?
我在之前的文章中多次讨论了 VLM,并介绍了为什么它们对于理解某些文档的内容如此重要。需要 VLM 的主要原因是文档中的大量信息需要视觉输入才能理解。
VLM 的替代方案是使用 OCR,然后使用 LLM。这里的问题是您只从文档中提取文本,而不包括视觉信息,例如:
- 不同文本相对于其他文本的位置非文本信息(基本上不是字母的所有内容,例如符号或绘图)文本相对于其他信息的位置
