详细内容或原文请订阅后点击阅览
什么是文档分类?
文档分类是将文档分类为相关类别或类别以更有效地组织数据/文档的过程。
来源:Nanonets在我们的狩猎采集时代,我们不得不将物体和生物归类为食物,敌人或朋友,以生存。如今,我们对分类的需求减少了保护,而更清晰。 在这个信息过载的时代,文档分类对于有效管理和信息和知识的使用至关重要。
在本文中,我们将研究文档分类的类型以及如何越来越多地用于此目的。还提供了一些示例,以了解文档分类在当今数据密集型生活中的相关性。
什么是文档分类?
文档分类是根据其内容,上下文和意图将文档及其元素插入到各种类型(或类)中。文档分类的过程涉及对文档的文本和视觉实体的分析,并将其分类为预定义的类型或类。 这使组织,检索和管理可以轻松。
文档分类通常为两种类型 - 视觉和文本分类。 我们将在下一节中更详细地看到它们。
Visual 文本文档分类的类型
最基本的分类类型是基于正在分类的内容 - 视觉图像或文本本身。 让我们看看每个需要什么。
视觉分类
标签或类别名称对视觉(非文本)内容的分配是图像分类。 这是一项基本的计算机视觉任务,其中识别和分类输入图像。例如,用于施工站点的图像分类算法可以识别设备并将其归类为挖掘机,叉车等。传统方法记录了依赖手工制作的功能,图像分割以及SIVM和K-NN(例如SVM和K-NN)的图像分类。
确定并分类文本分类
常见方法- 基于规则的OCR: