详细内容或原文请订阅后点击阅览
了解利用未标记数据的深度学习算法,第 1 部分:自我训练
深度模型需要大量的训练样本,但标记数据很难获得。这激发了利用未标记数据的重要研究方向,而未标记数据通常更容易获得。例如,可以通过爬取网络获取大量未标记的图像数据,而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中,使用未标记数据训练的模型已开始接近全监督性能(例如 Chen 等人,2020 年,Sohn 等人,2020 年)。本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中,我们将使用相关理论思想来分析自监督对比学习算法,这种算法对于无监督表示学习非常有效。背景:自训练我们将首先提供自训练算法的基本概述,这是本篇博文的重点。核心思想是使用一些预先存在的分类器 \(F_{pl}\)(称为“伪标记器”)在大型未标记数据集上进行预测(称为“伪标签”),然后用伪标签重新训练新模型。例如,在半监督学习中,伪标记器是从小型标记数据集上的训练中获得的,并且
来源:斯坦福人工智能实验室博客