从 4 周到 45 分钟:为 4,700 多个 PDF 设计文档提取系统

混合 PyMuPDF + GPT-4 Vision 管道如何取代 8,000 英镑的手动工程工作,以及为什么最新模型不是答案这篇文章《从 4 周到 45 分钟:为 4,700 多个 PDF 设计文档提取系统》首先出现在 Towards Data Science 上。

来源:走向数据科学

并询问我是否可以帮助从 4,700 多个工程图 PDF 中提取修订号。他们正在迁移到新的资产管理系统,需要每张图纸的当前 REV 值,即每个文档标题栏中隐藏的一个小字段。另一种方法是由工程师团队逐一打开每个 PDF,找到标题栏,然后手动将值键入到电子表格中。按每张图两分钟计算,大约需要 160 个人时。工程师的四个星期时间。以每小时大约 50 英镑的满载速度计算,对于一项除了填充电子表格列之外不会产生任何工程价值的任务,其劳动力成本超过 8,000 英镑。

这不是人工智能问题。这是一个具有实际限制的系统设计问题:预算、准确性要求、混合文件格式以及需要可信任结果的团队。人工智能是解决方案的组成部分之一。围绕它的工程决策才是真正使系统发挥作用的因素。

“简单”PDF 隐藏的复杂性

工程图不是普通的 PDF。有些是在 CAD 软件中创建的,并导出为基于文本的 PDF,您可以在其中以编程方式提取文本。其他的,特别是 20 世纪 90 年代和 2000 年代初的遗留图画,是从纸质原件扫描出来并保存为基于图像的 PDF。整个页面是平面光栅图像,根本没有文本层。

我们的语料库大约 70-80% 基于文本,20-30% 基于图像。但即使是基于文本的子集也是危险的。 REV 值至少以四种格式出现:连字符数字版本,如 1-0、2-0 或 5-1;单个字母,如 A、B、C;双字母,如 AA 或 AB;有时字段为空或缺失。有些图纸旋转了 90 或 270 度。许多修订历史记录表(多行更改日志)位于当前 REV 字段旁边,这是一个明显的误报陷阱。沿绘图边框的网格参考字母很容易被误认为是单字母修订。

为什么全人工智能方法是错误的选择