什么是文档分类?

文档分类是将文档分类为相关类别或类别以更有效地组织数据/文档的过程。

来源:Nanonets

在我们的狩猎采集时代,我们不得不将物体和生物归类为食物,敌人或朋友,以生存。如今,我们对分类的需求减少了保护,而更清晰。  在这个信息过载的时代,文档分类对于有效管理和信息和知识的使用至关重要。

在本文中,我们将研究文档分类的类型以及如何越来越多地用于此目的。还提供了一些示例,以了解文档分类在当今数据密集型生活中的相关性。

什么是文档分类?

文档分类是根据其内容,上下文和意图将文档及其元素插入到各种类型(或类)中。文档分类的过程涉及对文档的文本和视觉实体的分析,并将其分类为预定义的类型或类。  这使组织,检索和管理可以轻松。

文档分类通常为两种类型 - 视觉和文本分类。  我们将在下一节中更详细地看到它们。

Visual 文本

文档分类的类型

最基本的分类类型是基于正在分类的内容 - 视觉图像或文本本身。  让我们看看每个需要什么。

视觉分类

标签或类别名称对视觉(非文本)内容的分配是图像分类。  这是一项基本的计算机视觉任务,其中识别和分类输入图像。例如,用于施工站点的图像分类算法可以识别设备并将其归类为挖掘机,叉车等。传统方法记录了依赖手工制作的功能,图像分割以及SIVM和K-NN(例如SVM和K-NN)的图像分类。

确定并分类

文本分类

常见方法
    基于规则的OCR:
光学特征识别 注释