Loading...
机构名称:
¥ 1.0

摘要。PolitècnicaDeValència大学(UPV)在管理其Alfresco文档存储库方面面临挑战,其中包含600,000个PDF文件,其中只有100,000个正确分类。手动分类是费力且容易出错的,阻碍了信息检索和广告搜索功能。该项目提出了一条自动管道,该管道集成了光学特征识别(OCR)和机器学习以有效地对文档进行分类。我们的方法区分扫描和数字文档,准确地将文本提取并使用BERT和RF等模型将其分为51个预定义的类别。通过改进文档组织和可访问性,这项工作优化了UPV的文档管理,并为高级搜索技术和实时分类系统铺平了道路。

使用机器学习的自动PDF文档分类

使用机器学习的自动PDF文档分类PDF文件第1页

使用机器学习的自动PDF文档分类PDF文件第2页

使用机器学习的自动PDF文档分类PDF文件第3页

使用机器学习的自动PDF文档分类PDF文件第4页

使用机器学习的自动PDF文档分类PDF文件第5页

相关文件推荐

2025 年
¥2.0
2024 年
¥1.0
2021 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2021 年
¥1.0