训练样本领域信息情报检索---XiaoMi-AI

2022年2月24日 00:00

了解利用未标记数据的深度学习算法，第 1 部分：自我训练

Understanding Deep Learning Algorithms that Leverage Unlabeled Data, Part 1: Self-training

深度模型需要大量的训练样本，但标记数据很难获得。这激发了利用未标记数据的重要研究方向，而未标记数据通常更容易获得。例如，可以通过爬取网络获取大量未标记的图像数据，而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中，使用未标记数据训练的模型已开始接近全监督性能（例如 Chen 等人，2020 年，Sohn 等人，2020 年）。本系列博客文章将讨论我们的理论工作，该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中，我们将分析自我训练，这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中，我们将使用相关理论思想来分析自监督对比学习算法，这种算法对于

训练样本关键词检索结果

了解利用未标记数据的深度学习算法，第 1 部分：自我训练