7 大开源 OCR 模型

您可以在本地运行的最佳 OCR 和视觉语言模型,将文档、表格和图表转换为具有基准粉碎精度的完美 Markdown 副本。

来源:KDnuggets

简介

OCR(光学字符识别)模型每天都在获得新的认可。我看到 Hugging Face 上出现了新的开源模型,它们超越了以前的基准,提供了更好、更智能、更小的解决方案。

上传 PDF 意味着获得存在很多问题的纯文本的日子已经一去不复返了。我们现在拥有完整的转换、新的人工智能模型,可以理解文档、表格、图表、部分和不同的语言,将它们转换为高度准确的 Markdown 格式文本。这将为您的文本创建真正的一对一数字副本。

在本文中,我们将回顾前 7 个 OCR 模型,您可以在本地运行这些模型,将图像、PDF 甚至照片解析为完美的数字副本,不会出现任何问题。

1.olmOCR 2 7B 1025

olmOCR-2-7B-1025 是一种针对文档光学字符识别而优化的视觉语言模型。

olmOCR-2-7B-1025 模型由艾伦人工智能研究所发布,使用 olmOCR-mix-1025 数据集对 Qwen2.5-VL-7B-Instruct 进行微调,并通过 GRPO 强化学习训练进一步增强。

该模型在 olmOCR-bench 评估中获得了 82.4 的总分,在具有挑战性的 OCR 任务(包括数学方程、表格和复杂文档布局)上展示了强大的性能。

专为高效的大规模处理而设计,它与 olmOCR 工具包配合使用效果最佳,该工具包提供自动渲染、旋转和重试功能,可处理数百万个文档。

以下是前五个主要功能:

  • 自适应内容感知处理:自动对文档内容类型(包括表格、图表和数学方程)进行分类,以应用专门的 OCR 策略来提高准确性
  • 强化学习优化:GRPO RL 训练专门提高数学方程、表格和其他困难 OCR 案例的准确性
  • 2. PP OCR v5 服务器检测

    3.OCRFlux 3B

    4.MiniCPM-V 4.5

    5.实习生VL 2.5 4B

    6. Granite Vision 3.3 2b

    7. Trocr 大号印刷

    摘要