未标记的数据出现在许多域中,并且与流应用程序特别相关,即使数据丰富,标记的数据也很少见。要解决与此类数据相关的学习问题,人们可以忽略未标记的数据,而只专注于标记的数据(监督学习);使用标记的数据并尝试利用未标记的数据(半监督学习);或假设可以根据要求提供一些标签(主动学习)。第一种方法是最简单的,但是可用的标记数据量将限制预测性能。第二个依赖于查找和利用数据分布的基本特征。第三个取决于外部代理以及时提供所需的标签。本调查特别注意在半监督环境中利用未标记数据的方法。我们还讨论了延迟的标签问题,这会影响完全监督和半监督的方法。我们提出一个统一的问题设置,讨论学习保证和现有方法,解释相关问题设置之间的差异。最后,我们审查当前的基准测试实践,并提出改编以增强它们。
主要关键词