从 4 周到 45 分钟：为 4,700 多个 PDF 设计文档提取系统 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

从 4 周到 45 分钟：为 4,700 多个 PDF 设计文档提取系统

2026年4月7日 15:00 33 Comments

混合 PyMuPDF + GPT-4 Vision 管道如何取代 8,000 英镑的手动工程工作，以及为什么最新模型不是答案这篇文章《从 4 周到 45 分钟：为 4,700 多个 PDF 设计文档提取系统》首先出现在 Towards Data Science 上。

来源:走向数据科学

并询问我是否可以帮助从 4,700 多个工程图 PDF 中提取修订号。他们正在迁移到新的资产管理系统，需要每张图纸的当前 REV 值，即每个文档标题栏中隐藏的一个小字段。另一种方法是由工程师团队逐一打开每个 PDF，找到标题栏，然后手动将值键入到电子表格中。按每张图两分钟计算，大约需要 160 个人时。工程师的四个星期时间。以每小时大约 50 英镑的满载速度计算，对于一项除了填充电子表格列之外不会产生任何工程价值的任务，其劳动力成本超过 8,000 英镑。

这不是人工智能问题。这是一个具有实际限制的系统设计问题：预算、准确性要求、混合文件格式以及需要可信任结果的团队。人工智能是解决方案的组成部分之一。围绕它的工程决策才是真正使系统发挥作用的因素。

“简单”PDF 隐藏的复杂性

工程图不是普通的 PDF。有些是在 CAD 软件中创建的，并导出为基于文本的 PDF，您可以在其中以编程方式提取文本。其他的，特别是 20 世纪 90 年代和 2000 年代初的遗留图画，是从纸质原件扫描出来并保存为基于图像的 PDF。整个页面是平面光栅图像，根本没有文本层。

我们的语料库大约 70-80% 基于文本，20-30% 基于图像。但即使是基于文本的子集也是危险的。 REV 值至少以四种格式出现：连字符数字版本，如 1-0、2-0 或 5-1；单个字母，如 A、B、C；双字母，如 AA 或 AB；有时字段为空或缺失。有些图纸旋转了 90 或 270 度。许多修订历史记录表（多行更改日志）位于当前 REV 字段旁边，这是一个明显的误报陷阱。沿绘图边框的网格参考字母很容易被误认为是单字母修订。

为什么全人工智能方法是错误的选择

图像作用的错误的人工智能文本工程图其他的语料库速度计算标题栏 REV 劳动力 20 字母团队 PDF 工程明显的系统设计危险的电子表格每小时速度计修订为什么询问管理系统结果的文件格式设计问题普通的准确性复杂性工程师需要限制的隐藏的