22 个最佳开源 OCR 和手写数据集用于训练您的 ML 模型

商业世界正在以惊人的速度转型,但这种数字化转型远没有我们希望的那么广泛。从大公司到小型企业,人们仍然在日常运营中处理物理文档。虽然使用频率已经大大降低,但还没有完全消除 […]

来源:Shaip 博客

许多开源数据集可用于文本识别应用程序开发。 其中一些最好的 22 个是

  • NIST 或美国国家科学研究所提供可免费使用的超过 3600 个手写样本集,其中包含超过 810,000 个字符图像
  • NIST 或美国国家科学研究所提供可免费使用的超过 3600 个手写样本集,其中包含超过 810,000 个字符图像

  • MNIST 数据库源自 NSIT 的特殊数据库 1 和 3,是训练集的 60,000 个手写数字和测试集的 10,000 个示例的汇编集合。 这个开源数据库有助于训练模型识别模式,同时减少预处理时间。
  • MNIST 数据库源自 NSIT 的特殊数据库 1 和 3,是训练集的 60,000 个手写数字和测试集的 10,000 个示例的汇编集合。此开源数据库有助于训练模型识别模式,同时减少预处理时间。

  • 文本检测数据集是一个开源数据库,包含约 500 张室内和室外招牌、门牌、警示牌等图像。
  • 文本检测数据集是一个开源数据库,包含约 500 张室内和室外招牌、门牌、警示牌等图像。

  • 由斯坦福大学发布的这个免费使用的数据集是麻省理工学院口语语言系统小组的手写单词集合。
  • 由斯坦福大学发布的这个免费使用的数据集是麻省理工学院口语语言系统小组的手写单词集合。

  • 该数据集收集自 Google 街景图像,主要包含木板和街道标志的文本检测图像。
  • 该数据集收集自 Google 街景图像,主要包含木板和街道标志的文本检测图像。

  • 文档数据库收集了 189 位作者的 941 份手写文档,包括表格、公式、绘图、图表、列表等。
  • 超过 10,000 个表达式,包含 101 多个数学符号。
  • 高效的 OCR 训练数据集