评估 OCR-to-Markdown 系统是否已从根本上损坏(以及为什么难以修复)

评估将 PDF 或文档图像转换为 Markdown 的 OCR 系统远比看上去复杂。与纯文本 OCR 不同,OCR 到 Markdown 需要模型同时恢复内容、布局、阅读顺序和表示选择。今天的基准测试试图通过字符串匹配、启发式的组合来对此进行评分

来源:Nanonets

评估将 PDF 或文档图像转换为 Markdown 的 OCR 系统远比看上去复杂。与纯文本 OCR 不同,OCR 到 Markdown 需要模型同时恢复内容、布局、阅读顺序和表示选择。今天的基准测试试图通过字符串匹配、启发式对齐和特定于格式的规则的组合来对此进行评分,但在实践中,这些方法通常会将正确的输出错误地分类为失败。

这篇文章概述了为什么 OCR 到 Markdown 评估本质上是不明确的,检查了常见的评估技术及其失败模式,强调了在两个广泛使用的基准中观察到的具体问题,并解释了为什么 LLM 作为法官是目前评估这些系统最实用的方法——尽管它有缺陷。

为什么 OCR 到 Markdown 难以评估

从本质上讲,OCR-to-Markdown 没有单一的正确输出。

多个输出可以同等有效:

  • 多列布局可以按照不同的阅读顺序进行线性化。
  • 方程可以使用 LaTeX、Unicode、HTML 或混合形式表示。
  • 页眉、页脚、水印和页边文本可能会也可能不会被视为“内容”,具体取决于任务意图。
  • 间距、标点符号和 Unicode 规范化通常会有所不同,但不会影响含义。
  • 从人类或下游系统的角度来看,这些输出是等效的。从基准的角度来看,它们通常并非如此。

    常见的评估技术及其局限性

    1. 基于字符串的指标(编辑距离、精确匹配)

    大多数 OCR 到 Markdown 基准测试依赖于标准化字符串比较或编辑距离。

    限制

  • Markdown 被视为平面字符序列,忽略结构。
  • 微小的格式差异会产生很大的损失。
  • 如果文本重叠,结构不正确的输出可以获得很高的分数。
  • 分数与人类判断的相关性较差。
  • 这些指标奖励格式合规性而不是正确性。

    2. 顺序敏感的块匹配

    一些基准测试将文档分割成块并对顺序和邻近度进行评分。