字符串关键词检索结果

评估 OCR-to-Markdown 系统是否已从根本上损坏(以及为什么难以修复)

Evaluating OCR-to-Markdown Systems Is Fundamentally Broken (and Why That’s Hard to Fix)

评估将 PDF 或文档图像转换为 Markdown 的 OCR 系统远比看上去复杂。与纯文本 OCR 不同,OCR 到 Markdown 需要模型同时恢复内容、布局、阅读顺序和表示选择。今天的基准测试试图通过字符串匹配、启发式的组合来对此进行评分

Chain-of-Sketch:启用全局视觉推理

Chain-of-Sketch: Enabling Global Visual Reasoning

现代视觉模型在基准测试中取得了显着的成功,其中局部特征提供了有关目标的关键信息。现在,人们越来越有兴趣处理需要更多全局推理的任务,其中局部特征无法提供重要信息。 Minsky 和 ​​Papert 于 1969 年通过连通性研究提出了此类任务,暴露了感知器模型的局限性。在本文中,我们介绍了一组扩展的全局视觉数据集,涉及图形、字符串、迷宫和图像网格。我们表明大型视觉模型仍然难以学习这些任务......