我们在 9,000 多个真实文档上运行了 16 个 AI 模型。这是我们的发现。 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

我们在 9,000 多个真实文档上运行了 16 个 AI 模型。这是我们的发现。

2026年3月11日 15:00 33 Comments

我们在 3 个开放 OCR 基准测试中对 GPT-5.4、Gemini 3.1 Pro、Claude Opus、Sonnet 和其他 12 个软件进行了基准测试

来源:Nanonets

选择文档 AI 模型很困难。每个供应商都声称准确率超过 95%。通用基准测试测试推理和代码，而不是测试模型是否可以从扫描的发票中提取复杂的表。

因此，我们构建了智能文档处理 (IDP) 排行榜。

3 个开放基准测试。 16+ 型号。 9,000 多个真实文档。重要的任务：OCR、表格提取、关键信息提取、视觉 QA 和长文档理解。

重点不是给你一个数字并宣布获胜者。这是为了让你深入了解细节。查看每个模型的优点、不足之处，并自行决定哪一种模型适合您的文档。

结果令我们惊讶。第 7 名模型在一项基准测试中的得分高于第 1 名。十四行诗击败了作品。 Nanonets OCR2+ 以不到一半的成本与前沿模型相匹配。

每个基准衡量的东西都不同。使用一，您只能看到一个维度。所以我们用了三个。

OlmOCR Bench：你能可靠地解析凌乱的页面吗？密集乳胶、降级扫描、小字体文本、多列阅读顺序。在某一方面表现出色的模型往往在另一方面表现不佳。该数据集包括不同的 pdf 集。

OmniDocBench：模型是否理解文档的结构？公式、表格、阅读顺序。布局理解，而不仅仅是字符识别。

IDP核心：你能提取出企业真正需要的东西吗？这是我们的。发票、手写文本、ChartQA、DocVQA、20+页文档、六种表格。破坏生产管道的东西。与其他两个基准测试相比，这些是更繁重的推理任务。

每个模型都有六个子任务的能力概况：文本提取、公式处理、表格理解、视觉 QA、布局排序和关键信息提取。

探索每个模型的功能概况：idp 排行榜

大多数排行榜都会为您提供一张桌子。你看看它。您选择顶级型号。你继续前进。感觉就像是一个旁观者，而不是亲自动手。

点击

数据集子任务出色的理解重要的复杂的提取旁观者为什么测试信息提取实际上扫描的不同的公式模型文本供应商模型的文档需要的排行榜基准一半的继续前进每个测试模型表格