纸质档案的广泛数字化和数字资料的更积极归档正在创建越来越多的数据集合。主题索引,即根据受控词汇表为文档分配主题,是组织集合和提高其可发现性的重要方法。传统上,主题索引是由人类专家执行的手动过程,但由于手动索引是一个非常劳动密集的过程,因此自 20 世纪 60 年代以来,已经开发了主题索引的自动化和半自动化方法(Stevens 1965)。芬兰国家图书馆长期以来的目标一直是使芬兰图书馆和相关机构的一些主题索引过程自动化,原因有几个:减少索引工作量,使主题索引更加一致,并将主题索引扩展到传统手动索引不可行的集合。然而,从我们的角度来看,现有的自动主题索引工具和服务存在许多问题。首先,我们的民族语言芬兰语和瑞典语得不到大多数工具的良好支持。其次,这些工具通常依赖于它们自己的词汇表,而我们希望使用通用芬兰语本体 YSO 1(Niininen、Nykyri 和 Suominen 2017)以及其他芬兰语主题词汇表。第三,许多可用的解决方案都是商业服务,客户对系统几乎没有控制权,而且容易受到供应商锁定的影响。2017 年,我们开始开发自己的自动主题索引开源工具 Annif 2 。三年后,即 2020 年 5 月,我们推出了 Finto AI——一种基于 Annif 的自动主题索引服务,旨在用于生产用途 3 。在本文中,我们解释了开发 Annif 的过程、它支持的文本分类算法、我们用来确保算法生成的主题索引符合预期的质量保证流程、已部署基于 Annif 或 Finto AI 的自动主题索引的系统,并总结了一些经验教训。
主要关键词