表结构识别(TSR)是旨在将表图像转换为机器可读格式的任务(例如,html),促进其他应用程序,例如信息检索。最近的作品通过识别HTML标签和文本区域来解决此问题,后者用于从表文档中进行文本推断。这些作用 - 曾经,将文本映射到确定的文本区域时遭受了未对准问题的困扰。在本文中,我们介绍了一个新的TSR框架,称为Tflop(带有L ay o ut p ointer机制的T sr f ramework),该框架将传统的文本区域预测重新定义,并将其匹配为直接文本区域指向问题。具体来说,TFLOP同时使用文本区域信息来同时识别表的结构标签及其对齐文本区域。不需要区域前字典和对齐,TFLOP绕过了拟定的文本区域匹配阶段,这需要精心校准的后处理。tflop还掌握了跨度意识的对比监督,以使指向机制在具有综合结构的表中。因此,TFLOP在诸如PubTabnet,fintabnet和synthtabnet等多个基准座上实现了最先进的性能。在我们广泛的实验中,TFLOP不仅表现出竞争性能,而且还显示出在工业文档TSR方案(例如带有水印或非英语领域的文档)的有希望的结果。我们工作的源代码可公开可用:https://github.com/pupstageai/tflop。
8 Mflop/s 是一种执行速率,每秒执行数百万次浮点运算。每当使用此术语时,它都是指 64 位浮点运算,运算将是加法或乘法。Gflop/s 指每秒数十亿次浮点运算,而 Tflop/s 指每秒数万亿次浮点运算。