使 PDF 的图像可通过 RAG 进行搜索，而无需付费阅读全部内容 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使 PDF 的图像可通过 RAG 进行搜索，而无需付费阅读全部内容

2026年6月20日 15:00 33 Comments

企业文档智能 [Vol.1 #5sexies] - image_df 告诉您每张图片的位置。将少数重要的内容转化为可搜索的文本是一项单独的、按成本排序的工作这篇文章《使 PDF 图像可被 RAG 搜索，无需付费阅读全部内容》首先出现在《走向数据科学》上。

来源:走向数据科学

是企业文档智能中的伴侣，该系列使用四块砖构建企业 RAG 系统。它将第 5 条（文档解析）扩展到一个表：image_df，该表无需读取任何图片即可定位 PDF 中的每张图片。这部分构建了阅读工具箱：一个按成本排序的级联（廉价的过滤器、类型检查、经典的 OCR、视觉模型），将少数值得付费的图像转换为可搜索的文本。

解析块为您提供 image_df：PDF 中每个图像一行，及其页面、边界框、大小、内容哈希。这找到了每张图片。它没有说明其中任何一个显示的内容。对于检索来说，这与没有它们是一样的：用户无法搜索边界框，并且图像的文本槽（描述所在的位置）是空的。

反应是在每个图像上放置一个视觉模型并完成。这是错误的默认值。真实的文档充满了读者不会搜索的图像：每个页眉中的公司徽标、绘制为 2 像素高图片的水平线、项目符号符号、装饰性横幅。为那些有远见的人提供字幕 LLM 相当于花钱请一个模型来描述一个徽标三百次。

所以工作一分为二。首先，将图像转换为文本的方法，以及每种方法的成本：廉价的过滤器、类型检查、经典的 OCR、视觉模型。其次，在给定的运行中哪些图像实际上值得花费。下半年是由背景驱动的。身体线条上写着“下面的图 3 显示……”是用视觉模型读取该图的提示，而不是它的邻居；所提出的问题进一步缩小了范围。本文列出了这些方法并显示了每种方法的返回值（按成本排序）。选择为每个文档和每个查询支付哪些图像是自适应解析，并且它有自己的文章（第 10 条）。在这里我们构建工具箱。

1. 大多数图像不值得模型调用

输入：image_df（+ 每个图像像素统计数据）。输出：带有worth_analyzing 标志的同一个表。

6. 结论

image 图像视觉模型过滤器错误的下面的实际上模型统计数据真实的驱动的文本输入廉价的给定的付费的自适应标志的相当于构建经典的提出的搜索的符号解析工具箱徽标自己的成本值得方法图片文档每个 df 水平线默认值