详细内容或原文请订阅后点击阅览
评估 OCR-to-Markdown 系统是否已从根本上损坏(以及为什么难以修复)
评估将 PDF 或文档图像转换为 Markdown 的 OCR 系统远比看上去复杂。与纯文本 OCR 不同,OCR 到 Markdown 需要模型同时恢复内容、布局、阅读顺序和表示选择。今天的基准测试试图通过字符串匹配、启发式的组合来对此进行评分
来源:Nanonets评估将 PDF 或文档图像转换为 Markdown 的 OCR 系统远比看上去复杂。与纯文本 OCR 不同,OCR 到 Markdown 需要模型同时恢复内容、布局、阅读顺序和表示选择。今天的基准测试试图通过字符串匹配、启发式对齐和特定于格式的规则的组合来对此进行评分,但在实践中,这些方法通常会将正确的输出错误地分类为失败。
这篇文章概述了为什么 OCR 到 Markdown 评估本质上是不明确的,检查了常见的评估技术及其失败模式,强调了在两个广泛使用的基准中观察到的具体问题,并解释了为什么 LLM 作为法官是目前评估这些系统最实用的方法——尽管它有缺陷。
为什么 OCR 到 Markdown 难以评估
从本质上讲,OCR-to-Markdown 没有单一的正确输出。
多个输出可以同等有效:
从人类或下游系统的角度来看,这些输出是等效的。从基准的角度来看,它们通常并非如此。
常见的评估技术及其局限性
1. 基于字符串的指标(编辑距离、精确匹配)
大多数 OCR 到 Markdown 基准测试依赖于标准化字符串比较或编辑距离。
限制
这些指标奖励格式合规性而不是正确性。
2. 顺序敏感的块匹配
一些基准测试将文档分割成块并对顺序和邻近度进行评分。
