当 PyMuPDF 看不到表格时:使用 Azure 布局为 RAG 解析 PDF

企业文档智能 [Vol.1 #5bis] - 相同的关系表。 Native table cells.用于扫描页面和图像的 OCR。没有正则表达式的说明文字和标题。当 PyMuPDF 无法查看表格时:使用 Azure 布局解析 RAG 的 PDF 文章首先出现在走向数据科学上。

来源:走向数据科学

是企业文档智能中的姊妹篇,该系列使用四块砖构建企业 RAG 系统。第 5 条(文档解析)使用 PyMuPDF (fitz) 构建了解析器。该伴侣保持相同的目标和相同的关系表,并将引擎替换为 Azure Layout(预构建布局模型),这是一个更丰富的包,可以恢复 fitz 无法恢复的功能。这个差距就是我们开始的地方。

PyMuPDF (fitz) 快速、免费且准确地处理干净的散文。它还在三个地方失明,而每一个地方都是企业 RAG 悄然破裂的地方。

合同第 14 页上的表格。 Fitz 逐一读取单元格并将它们连接起来。列结构消失了。“续订费 500 设置费 200”落在该块中。您的模型被要求猜测哪个数字是哪个费用。

将扫描的修改粘贴到文档末尾。 Fitz 读取本机页面并在扫描的页面上返回空字符串。用户无法得到有关修改的答案,因为解析器从未阅读过它。

内部有文本的图形。带有轴标签的图表。签名的印章。电子表格的屏幕截图。 Fitz 返回图像的 bbox。里面的文字不见了。

Azure 文档智能读取所有三个。它是一项专有的 Microsoft Azure 云服务,受 Microsoft 在线服务条款管辖。预构建的布局模型返回本机表格单元格(行、列、标题)、每个页面的 OCR 文本(本机或扫描)、其中包含文本的图形以及段落角色(标题、sectionHeading、figureCaption、tableCaption)。一通电话。和fitz一样的关系表,其中一半是丰富的。

下游管道不关心哪个引擎生成了字典。检索、生成、注释读取行。他们从不阅读 PDF。

1. 菲茨失明的地方

四种情况。在每一场比赛中,菲茨都失误了,而阿祖尔则发挥了作用。

1.1。表:fitz 返回平面单词,Azure 返回单元格

1.2。图像:fitz 返回 bbox,Azure 返回文本

1.3。扫描的页面:fitz 不返回任何内容,Azure 返回 OCR

2. 相同的合约,更丰富的数据