详细内容或原文请订阅后点击阅览
我们在 9,000 多个真实文档上运行了 16 个 AI 模型。这是我们的发现。
我们在 3 个开放 OCR 基准测试中对 GPT-5.4、Gemini 3.1 Pro、Claude Opus、Sonnet 和其他 12 个软件进行了基准测试
来源:Nanonets选择文档 AI 模型很困难。每个供应商都声称准确率超过 95%。通用基准测试测试推理和代码,而不是测试模型是否可以从扫描的发票中提取复杂的表。
因此,我们构建了智能文档处理 (IDP) 排行榜。
3 个开放基准测试。 16+ 型号。 9,000 多个真实文档。重要的任务:OCR、表格提取、关键信息提取、视觉 QA 和长文档理解。
重点不是给你一个数字并宣布获胜者。这是为了让你深入了解细节。查看每个模型的优点、不足之处,并自行决定哪一种模型适合您的文档。
结果令我们惊讶。第 7 名模型在一项基准测试中的得分高于第 1 名。十四行诗击败了作品。 Nanonets OCR2+ 以不到一半的成本与前沿模型相匹配。
为什么有 3 个基准?
每个基准衡量的东西都不同。使用一,您只能看到一个维度。所以我们用了三个。
OlmOCR Bench:你能可靠地解析凌乱的页面吗?密集乳胶、降级扫描、小字体文本、多列阅读顺序。在某一方面表现出色的模型往往在另一方面表现不佳。该数据集包括不同的 pdf 集。
OmniDocBench:模型是否理解文档的结构?公式、表格、阅读顺序。布局理解,而不仅仅是字符识别。
IDP核心:你能提取出企业真正需要的东西吗?这是我们的。发票、手写文本、ChartQA、DocVQA、20+页文档、六种表格。破坏生产管道的东西。与其他两个基准测试相比,这些是更繁重的推理任务。
每个模型都有六个子任务的能力概况:文本提取、公式处理、表格理解、视觉 QA、布局排序和关键信息提取。
探索每个模型的功能概况:idp 排行榜
排行榜实际上可以让您做什么?
大多数排行榜都会为您提供一张桌子。你看看它。您选择顶级型号。你继续前进。感觉就像是一个旁观者,而不是亲自动手。
我们是如何运行它的?
点击
