使用 Docling 在本地解析 RAG 的 PDF:丰富的表,无需云上传

企业文档智能 [Vol.1 #5ter] - 表格单元格、OCR、说明文字、标题:云级结构,在您自己的计算机上运行。没有钥匙,没有每页账单,没有任何东西离开大楼用Docling在本地解析RAG的PDF:丰富的表,没有云上传首先出现在Towards Data Science上。

来源:走向数据科学

是企业文档智能中的姊妹篇,该系列使用四块砖构建企业 RAG 系统。第 5 条(文档解析)使用 PyMuPDF (fitz) 构建了解析器。这个伴侣保持相同的目标和相同的关系表,并将引擎替换为 Docling,这是一个更丰富的软件包,可以恢复表格单元格、OCR 和 Fitz 遗漏的标题,并且完全在您自己的计算机上运行。为什么最后一部分很重要,这就是我们的起点。

您可以买到的最丰富的解析器可以读取表格、扫描以及图形中捕获的文本。它还需要将文档交给别人的云端。

对于很多企业工作来说,这是不可能的。办公桌上的保险合同、病历、并购资料室、签订的雇佣协议。法律不会让这些字节离开大楼,更不用说跨越边界进入其他人的云了。如果合规性阻止上传,世界上最丰富的解析器将毫无用处。

Docling 是答案的另一半。它是 IBM Research 的开源文档解析器(MIT 许可证,在 GitHub 上的项目许可证文件中声明):布局检测、OCR、阅读顺序和 TableFormer(IBM 的深度学习模型,无需正则表达式即可检测表结构(行、列、标题))。所有这些都是 pip 安装。它在您自己的机器上运行。第一个调用将模型下载到本地缓存;此后的每次通话均处于离线状态。没有API密钥,没有每页费用,文档永远不会离开主机。

输出与 fitz 和 Azure 相同的关系表。下游管道不关心哪个引擎产生了字典。检索、生成、注释读取行。他们从不阅读 PDF。

1. 云是约束,而不是能力

第 5 条之二提出了更丰富的解析的理由。保留其列的表。对扫描页面进行 OCR。从内部图形中恢复的文本。即使 PDF 没有书签也有标题。这些论点在这里都没有改变。改变的是计算发生的地方。

3. 每桌获得什么