本书的前两章介绍了现有信息检索系统的设计和操作。在信息检索所需的所有操作中,最关键、也可能是最困难的操作是分配适当的术语和标识符,以表示集合项的内容。这项任务称为索引,通常由训练有素的专家手动执行。在现代环境中,索引任务可以自动执行。本章涉及用于自动索引的技术以及这些技术的效果和性能。首先描述基本的索引任务,然后比较手动和自动索引。然后研究选择好的内容术语和根据术语的假定值分配权重的基本技术,以便进行内容识别。然后提出了一种简单的自动索引程序,以及由使用术语短语和同义词库类别组成的改进。还简要介绍了语言和概率技术在自动索引中的使用。最后,包括评估输出以证明所提出的索引技术应用于小样本集合的有效性。