Understanding Deep Learning Algorithms that Leverage Unlabeled Data, Part 1: Self-training
深度模型需要大量的训练样本,但标记数据很难获得。这激发了利用未标记数据的重要研究方向,而未标记数据通常更容易获得。例如,可以通过爬取网络获取大量未标记的图像数据,而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中,使用未标记数据训练的模型已开始接近全监督性能(例如 Chen 等人,2020 年,Sohn 等人,2020 年)。本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中,我们将使用相关理论思想来分析自监督对比学习算法,这种算法对于
Understanding Deep Learning Algorithms that Leverage Unlabeled Data, Part 1: Self-training
深度模型需要大量的训练样本,但标记数据很难获得。这激发了利用未标记数据的重要研究方向,而未标记数据通常更容易获得。例如,可以通过爬取网络获取大量未标记的图像数据,而 ImageNet 等标记数据集则需要昂贵的标记程序。在最近的实证发展中,使用未标记数据训练的模型已开始接近全监督性能(例如 Chen 等人,2020 年,Sohn 等人,2020 年)。本系列博客文章将讨论我们的理论工作,该工作旨在分析使用未标记数据的最新实证方法。在第一篇文章中,我们将分析自我训练,这是一种非常有影响力的半监督学习和领域自适应算法范式。在第 2 部分中,我们将使用相关理论思想来分析自监督对比学习算法,这种算法对于
本博客的最初主题之一应该是将飞行模拟器与现实世界联系起来,偶尔会涉及其他主题。现在可能很难再说清楚了,因为我花在“岔开话题”上的时间比花在核心主题上的时间多得多,但这周宇宙似乎在提醒我这一点。过去几天,我遇到了两篇关于这个主题的有趣文章。虽然我很少发布“一触即发”(只链接到其他文章而没有太多讨论的帖子),但这周对我来说也恰好是新学期的开始。由于我还从事全职飞行员的工作,不幸的是,这次我太忙了,没时间写一篇深入的帖子。尽管如此,这些文章(尤其是第一篇)还是很精彩,不容错过。第一篇,学习在模拟机翼上飞行,很好地展示了比尔·福雷利(我猜他和桑尼没有关系)如何通过在 X-Plane 中学习大量标准飞行
A friendly introduction to Generative Adversarial Networks
到目前为止,我们一直在讨论判别模型,它将输入特征 x 映射到标签 y 并近似 P(y/x)——贝叶斯定律。生成模型则相反,它们试图根据标签预测输入特征。假设给定的标签是 y,我们看到某些特征 x 的可能性有多大。它们近似 P(x 和 y) 的联合概率。来源:Medium / CycleGAN生成对抗网络 (GAN)来源:O'ReillyGAN 的组成部分:1. 生成器——这是一个逆 CNN,当我们沿着 CNN 链前进并在输出处提取特征时,该网络不会压缩信息,而是将随机噪声作为输入特征并在其输出处生成图像。2. 鉴别器——鉴别器是一个 CNN,它查看来自训练集和生成器输出的图像,并将它们分类为真
Doolittle Raider to Airmen: Training is key to mission success
虽然空军经常因其对技术的使用和对硬件的依赖而受到赞誉,但 2013 年 12 月 30 日杜立特空袭飞机的到访再次证明了空军的真正实力源自训练有素、富有创新精神的空军士兵的共同努力。退役中校理查德·科尔曾在 1942 年 4 月突袭东京期间担任时任吉米·杜立特上校的副驾驶,他花了一天时间与巴克斯代尔空军基地的飞行员会面并分享趣闻轶事。