使用 Docling 在本地解析 RAG 的 PDF：丰富的表，无需云上传 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 Docling 在本地解析 RAG 的 PDF：丰富的表，无需云上传

2026年6月13日 15:00 33 Comments

企业文档智能 [Vol.1 #5ter] - 表格单元格、OCR、说明文字、标题：云级结构，在您自己的计算机上运行。没有钥匙，没有每页账单，没有任何东西离开大楼用Docling在本地解析RAG的PDF：丰富的表，没有云上传首先出现在Towards Data Science上。

来源:走向数据科学

是企业文档智能中的姊妹篇，该系列使用四块砖构建企业 RAG 系统。第 5 条（文档解析）使用 PyMuPDF (fitz) 构建了解析器。这个伴侣保持相同的目标和相同的关系表，并将引擎替换为 Docling，这是一个更丰富的软件包，可以恢复表格单元格、OCR 和 Fitz 遗漏的标题，并且完全在您自己的计算机上运行。为什么最后一部分很重要，这就是我们的起点。

您可以买到的最丰富的解析器可以读取表格、扫描以及图形中捕获的文本。它还需要将文档交给别人的云端。

对于很多企业工作来说，这是不可能的。办公桌上的保险合同、病历、并购资料室、签订的雇佣协议。法律不会让这些字节离开大楼，更不用说跨越边界进入其他人的云了。如果合规性阻止上传，世界上最丰富的解析器将毫无用处。

Docling 是答案的另一半。它是 IBM Research 的开源文档解析器（MIT 许可证，在 GitHub 上的项目许可证文件中声明）：布局检测、OCR、阅读顺序和 TableFormer（IBM 的深度学习模型，无需正则表达式即可检测表结构（行、列、标题））。所有这些都是 pip 安装。它在您自己的机器上运行。第一个调用将模型下载到本地缓存；此后的每次通话均处于离线状态。没有API密钥，没有每页费用，文档永远不会离开主机。

输出与 fitz 和 Azure 相同的关系表。下游管道不关心哪个引擎产生了字典。检索、生成、注释读取行。他们从不阅读 PDF。

1. 云是约束，而不是能力

第 5 条之二提出了更丰富的解析的理由。保留其列的表。对扫描页面进行 OCR。从内部图形中恢复的文本。即使 PDF 没有书签也有标题。这些论点在这里都没有改变。改变的是计算发生的地方。

3. 每桌获得什么

许可证表达式丰富的办公桌为什么计算机合规性检测表相同的 IBM 不会自己的解析的软件包 Docling 模型恢复的扫描 fitz 文档解析器 OCR 资料室企业 PDF 没有引擎表格可能的声明