标准模型(比如 PAC 框架)并未捕捉到标记数据和未标记数据之间的区别,而这种区别催生了主动学习领域,在主动学习中,学习者可以要求特定点的标签,但每个标签都需要付费。这些查询点通常从未标记的数据集中选择,这种做法称为基于池的学习 [10]。目前也有一些关于人工创建查询点的研究,包括大量理论成果 [1, 2],但这种方法存在两个问题:首先,从实用角度来看,这样产生的查询可能非常不自然,因此人类很难进行分类 [3];其次,由于这些查询不是从底层数据分布中挑选出来的,因此它们在泛化方面的价值可能有限。在本文中,我们重点关注基于池的学习。