Loading...
机构名称:
¥ 1.0

现实世界文本可能会因环境或人为因素引起的腐蚀问题而损害,这阻碍了文本的完整样式(例如纹理和结构)的保存。这些腐蚀问题,例如涂鸦迹象和不完整的签名,在理解文本方面带来了困难,从而对下游应用构成了重大挑战,例如场景文本识别和签名识别。值得注意的是,当前的介绍技术通常无法充分解决此问题,并且难以恢复准确的文本图像以及合理且一致的样式。将其作为文本图像中绘画的一个开放问题,旨在建立一个基准来促进其研究。在这样做时,我们建立了两个特定的文本插图数据集,分别包含场景文本图像和手写文本图像。它们中的每个图像都由现实生活和合成数据集重新消除,其中包含成对的原始图像,损坏的图像和其他助手信息。在数据集的顶部,我们进一步开发了一种新型的神经框架,全局结构引导的扩散模型(GSDM),作为潜在的解决方案。利用文本的全局结构为先验,提出的GSDM开发了一个有效的扩散模型,以恢复干净的文本。通过彻底的经验研究证明了我们方法的效率,包括识别精度和图像质量的实质性提高。这些发现不仅高出了我们方法的有效性,而且强调了它增强文本图像所构图和处理的更广泛领域的潜力。代码和数据集可在以下网址提供:https://github.com/blackprotoss/gsdm。

文本图像通过全局结构引导的扩散模型插图

文本图像通过全局结构引导的扩散模型插图PDF文件第1页

文本图像通过全局结构引导的扩散模型插图PDF文件第2页

文本图像通过全局结构引导的扩散模型插图PDF文件第3页

文本图像通过全局结构引导的扩散模型插图PDF文件第4页

文本图像通过全局结构引导的扩散模型插图PDF文件第5页

相关文件推荐

2024 年
¥1.0
2025 年
¥1.0