为了创建能够自动从图像或图片中读取文本的计算机系统,研究人员专注于检测和识别图像中的文本。这个问题特别困难,因为图像通常具有复杂的背景和广泛的属性,包括颜色、大小、形状、方向和纹理。我们提出的方法基于形态学,它由膨胀和腐蚀过程组成,以提取文本并识别包含文档文本或图像的黑白文本区域。这种建议的方法已被研究,因为它能够自动识别与文本图片对齐的文本,例如商店名称、街道名称、横幅和海报。本文使用光学字符识别 (OCR) Tesseract 标准和优化的 OCR Tesseract 介绍了该设备实验的设计、应用和结果。我们的结果表明,优化的 OCR Tesseract 比标准性能好得多。图像预处理和文本处理模块构成了该设备的两个模块。该设备使用 Arduino Uno 和 drawbot/flutter 进行文本打印,是使用 Raspberry Pi 和 1.2GHz 处理器创建的。
主要关键词