使 PDF 的图像可通过 RAG 进行搜索,而无需付费阅读全部内容

企业文档智能 [Vol.1 #5sexies] - image_df 告诉您每张图片的位置。将少数重要的内容转化为可搜索的文本是一项单独的、按成本排序的工作这篇文章《使 PDF 图像可被 RAG 搜索,无需付费阅读全部内容》首先出现在《走向数据科学》上。

来源:走向数据科学

是企业文档智能中的伴侣,该系列使用四块砖构建企业 RAG 系统。它将第 5 条(文档解析)扩展到一个表:image_df,该表无需读取任何图片即可定位 PDF 中的每张图片。这部分构建了阅读工具箱:一个按成本排序的级联(廉价的过滤器、类型检查、经典的 OCR、视觉模型),将少数值得付费的图像转换为可搜索的文本。

解析块为您提供 image_df:PDF 中每个图像一行,及其页面、边界框、大小、内容哈希。这找到了每张图片。它没有说明其中任何一个显示的内容。对于检索来说,这与没有它们是一样的:用户无法搜索边界框,并且图像的文本槽(描述所在的位置)是空的。

反应是在每个图像上放置一个视觉模型并完成。这是错误的默认值。真实的文档充满了读者不会搜索的图像:每个页眉中的公司徽标、绘制为 2 像素高图片的水平线、项目符号符号、装饰性横幅。为那些有远见的人提供字幕 LLM 相当于花钱请一个模型来描述一个徽标三百次。

所以工作一分为二。首先,将图像转换为文本的方法,以及每种方法的成本:廉价的过滤器、类型检查、经典的 OCR、视觉模型。其次,在给定的运行中哪些图像实际上值得花费。下半年是由背景驱动的。身体线条上写着“下面的图 3 显示……”是用视觉模型读取该图的提示,而不是它的邻居;所提出的问题进一步缩小了范围。本文列出了这些方法并显示了每种方法的返回值(按成本排序)。选择为每个文档和每个查询支付哪些图像是自适应解析,并且它有自己的文章(第 10 条)。在这里我们构建工具箱。

1. 大多数图像不值得模型调用

输入:image_df(+ 每个图像像素统计数据)。输出:带有worth_analyzing 标志的同一个表。

6. 结论