Loading...
机构名称:
¥ 1.0

标题检测和目录生成是文档结构分析这个更大问题的重要组成部分。了解文档的固有布局和结构有利于从文档中执行几个下游文档 AI 任务,例如搜索、摘要、实体提取和表格检测等。人类浏览文档并理解文档结构,包括标题与非标题以及标题的整体层次结构。这可以归因于许多原因,例如文档的顺序性、几何特征或句子的语义。我们试图将这些基本的人类本能融入我们的模型中。人类对文档的结构有直观的概念,阅读文本块后会确认这一假设。迁移学习可用于对一般文档的结构属性进行建模。我们使用开放域中可用的 Arxiv 文档 1 来学习一般文档的结构模型。使用 LSTM(Hochreiter 和 Schmidhuber,1997)在特定领域文档的标题级别学习语义属性。最终模型在特定领域的数据集上进行训练,结构权重由 Arxiv 文档预先训练。通过将迁移学习应用于标题检测任务,我们看到了显著的改进。将基于手动特征的深度神经网络和字符 CNN(Zhang 等人,2015)结合到开头的八个字符上,有助于我们为一般文档的结构特征建模。

研究目录生成中标题检测的迁移学习

研究目录生成中标题检测的迁移学习PDF文件第1页

研究目录生成中标题检测的迁移学习PDF文件第2页

研究目录生成中标题检测的迁移学习PDF文件第3页

研究目录生成中标题检测的迁移学习PDF文件第4页

研究目录生成中标题检测的迁移学习PDF文件第5页

相关文件推荐