了解利用未标记数据的深度学习算法,第 1 部分:自我训练

深度模型需要大量的训练样本,但标记数据很难获得。这激发了利用未标记数据的重要研究方向,而未标记数据通常更容易获得。例如,可以通过爬取网络获取大量未标记的图像数据,而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中,使用未标记数据训练的模型已开始接近全监督性能(例如 Chen 等人,2020 年,Sohn 等人,2020 年)。本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中,我们将使用相关理论思想来分析自监督对比学习算法,这种算法对于无监督表示学习非常有效。背景:自训练我们将首先提供自训练算法的基本概述,这是本篇博文的主要重点。核心思想是使用一些预先存在的分类器 \(F_{pl}\)(称为“伪标记器”)在大型未标记数据集上进行预测(称为“伪标签”),然后用伪标签重新训练新模型。例如,在半监督学习中,伪标记器是从小型标记数据集上的训练中获得的,并且

来源:斯坦福人工智能实验室博客

深层模型需要大量的培训示例,但是很难获得标记的数据。这激发了有关利用未标记数据的重要研究,这通常更容易获得。例如,可以通过爬网来获得大量未标记的图像数据,而标记的数据集(例如Imagenet)需要昂贵的标签过程。在最近的经验发展中,经过未标记数据训练的模型已经开始处理完全监督的绩效(例如,Chen等,2020,Sohn等,2020)。

Imagenet Chen等,2020 Sohn等,2020

本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新经验方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的算法,用于半监督学习和域适应性。在第2部分中,我们将使用相关的理论思想来分析自我监督的对比学习算法,这对于无监督的表示学习非常有效。

自我训练 半监督学习 域改编 无监督的表示

背景:自我训练

我们将首先提供自我训练算法的基本概述,这是本博客文章的主要重点。核心想法是使用一些预先存在的分类器\(f_ {pl} \)(称为“伪标记”)在一个大型未标记的数据集中对预测进行预测(称为“伪标签”),然后使用Pseudo-Labels进行重新训练。例如,在半监督的学习中,伪标签者是通过在小标记的数据集中培训获得的,然后用于预测较大的未标记数据集中的伪标记。然后,使用其他正则化将新的分类器\(f \)从头开始重新审阅以适合伪标签。在实践中,\(f \)通常比原始的伪标记\(f_ {pl} \)(Lee 2013)更准确。自训练程序如下所示。

Lee 2013 自己的预测 证明 Lee 2013 自己的预测证明