摘要。基于文档分类目的的基于艺术神经网络(NN)的方法的一个主要缺点是获得有效分类所需的大量培训样本。最低要求的数字约为每个班级的一千个注释的文档。在许多情况下,在实际的工业过程中收集这一数量的样本非常困难,即使不是不可能。在本文中,我们根据公司文档流的情况来分析基于NN的文档分类系统的效率。我们评估了三种不同的方法,一种基于图像内容,两种基于文本内容。评估分为四个部分:参考案例,以评估实验室中系统的性能;每种情况都模拟了两种情况,这些情况很难与文档流处理相关联;以及一个结合了所有这些困难的现实情况。现实的案例强调了一个事实,即基于NN的文档分类系统的效率显着下降。尽管它们对于代表良好的类(对于这些类别的系统过度拟合)仍然有效,但他们不可能处理适当的代表性较低的班级。nn基于文档的分类系统需要适应以解决这两个问题,然后才能将其视为在公司文档流中使用。
主要关键词