摘要。PolitècnicaDeValència大学(UPV)在管理其Alfresco文档存储库方面面临挑战,其中包含600,000个PDF文件,其中只有100,000个正确分类。手动分类是费力且容易出错的,阻碍了信息检索和广告搜索功能。该项目提出了一条自动管道,该管道集成了光学特征识别(OCR)和机器学习以有效地对文档进行分类。我们的方法区分扫描和数字文档,准确地将文本提取并使用BERT和RF等模型将其分为51个预定义的类别。通过改进文档组织和可访问性,这项工作优化了UPV的文档管理,并为高级搜索技术和实时分类系统铺平了道路。
AL09-04 L 13 | 19:00-19:20 | 0.6近似加权阈值访问结构Miquel Guiot(University Rovira I Virgili)A09-05 m 14 |的秘密共享方案| 15:00-15:20 | 0.6关于多播加密的通信成本的下限和群体汇报Miguel Cueto Noval(奥地利科学技术研究所)A09-06 M 14 | 15:30-15:50 | 0.6加密协议的正式建模和分析ArturoHernándezSánchez(Vrain,UniversitypolitècnicaDeValència),09-07 M 14 | 16:00-16:20 | 0.6乳酸问题和安全性Miguelángelgonzálezdelare(InstitodeTechnologíasfísicasyElainformación-csic)a09-08 m 14 | 16:30-16:50 | 0.6对私人平均聚集的阈值同态加密的批判性看待Miguel Morona-Mínguez(Vigo大学)A09-09 M 14 | 17:30-17:50 | 0.6前进的对称密码学:拟合协议的对称技术的加密分析(Stap)Irati Manterola Ayala(Simula UIB)在09-10 M 14 | 18:00-18:20 | 0.6 DME-Minus Signatus方案Pilar Coscojuela(Madrid大学)A09-11 M 14 | 18:30-18:50 | 0.6使用卷积代码MiguelBeltráVidal(Alicante University of Alicante)对基于代码的密码系统的安全分析
