从分子的图形表示中了解化学结构是一项具有挑战性的图像限制任务,它将极大地使以分子为中心的分数发现。分子图像和标题子任务中的变化在图像代表学习和任务建模中都构成了重大挑战。然而,现有的方法仅集中于将分子图像转化为其图形结构的特定字幕任务,即OCSR。 在本文中,我们提出了光学化学结构(OCSU)任务,该任务将OCSR扩展到分子图像字幕从基序级别到分子水平和抽象水平。 我们提出了两种方法,包括基于OCSR的方法和端到端OCSR-无ocsr方法。 拟议的双检查通过针对局部模棱两可的原子的细心功能增强,在现实世界专利和期刊媒介场景上实现了SOTA OCSR性能。 以基于微笑的分子理解方法级联,它可以利用OCSU的特定任务特定模型的功能。 MOL-VL是端到端优化的基于VLM的模型。 OCSU数据集Vis-Chebi20是基于广泛使用的Chebi20数据集构建的,用于培训和评估。 对Vis-Chebi20的广泛实验结果证明了所提出的方法的有效性。 提高OCSR功能可以为基于OCSR的APARCH提供更好的OCSU性能,而Mol-VL的SOTA性能表明了端到端方法的巨大潜力。OCSR。在本文中,我们提出了光学化学结构(OCSU)任务,该任务将OCSR扩展到分子图像字幕从基序级别到分子水平和抽象水平。我们提出了两种方法,包括基于OCSR的方法和端到端OCSR-无ocsr方法。拟议的双检查通过针对局部模棱两可的原子的细心功能增强,在现实世界专利和期刊媒介场景上实现了SOTA OCSR性能。以基于微笑的分子理解方法级联,它可以利用OCSU的特定任务特定模型的功能。MOL-VL是端到端优化的基于VLM的模型。OCSU数据集Vis-Chebi20是基于广泛使用的Chebi20数据集构建的,用于培训和评估。对Vis-Chebi20的广泛实验结果证明了所提出的方法的有效性。提高OCSR功能可以为基于OCSR的APARCH提供更好的OCSU性能,而Mol-VL的SOTA性能表明了端到端方法的巨大潜力。
在过去的几十年中,描述化学结构的出版物数量稳步增加。然而,目前大多数已发表的化学信息在公共数据库中都无法以机器可读的形式获得。以更少的人工干预方式实现信息提取过程的自动化仍然是一个挑战——尤其是化学结构描述的挖掘。作为一个利用深度学习、计算机视觉和自然语言处理方面的最新进展的开源平台,DECIMER.ai(化学图像识别深度学习)致力于自动分割、分类和翻译印刷文献中的化学结构描述。分割和分类工具是同类中唯一公开可用的软件包,光学化学结构识别 (OCSR) 核心应用程序在所有基准数据集上都表现出色。这项工作中开发的源代码、训练模型和数据集均已在许可下发布。DECIMER Web 应用程序的一个实例可在 https://decimer.ai 获得。