计算机视觉中的 GAN - 自我监督对抗训练和融合风格的高分辨率图像合成

计算机视觉中 GAN 的第五篇文章系列 - 我们讨论了对抗训练中用于无条件图像生成的自我监督以及高分辨率图像合成中的层内规范化和风格融合。

来源:AI夏令营

我在 GAN 领域的旅程中学到的一个重要教训是,你不能从 GAN 开始学习深度学习。要理解每个设计选择,都需要大量的背景知识。每篇论文都有自己的创造力,这些创造力源于对深度学习实际工作原理的一般理解。在生成学习中提出一般解决方案非常困难。但是当你开始专注于特定任务时,在设计 GAN 的游戏中,创造力是没有上限的。这是我们选择专注于计算机视觉的原因之一。经过一系列的评论后,你会开始明白我们收录的顶级论文开始有意义了。它确实像一个谜题。

所以,让我们试着解决它吧!

在上一篇文章中,我们讨论了 2K 图像到图像的转换、视频到视频的合成以及大规模类条件图像生成。即 pix2pixHD、vid-to-vid 和 BigGAN。在这一部分中,我们将从 ImageNet 中的无条件图像生成开始,利用自监督学习的最新进展。最后,我们将重点介绍通过自适应实例规范化进行风格整合。为此,我们将重新审视层内规范化的概念,这些概念在我们理解 GAN 时将被证明非常有用。

帖子 自监督学习 风格整合 自适应实例规范化

在上一篇文章中,我们已经讨论了很多关于类条件 GAN(BigGAN)以及图像条件 GAN(pix2pixHD)的内容。这些方法在高分辨率下实现了高质量,具体分别为 512x512 和 2048x1024。然而,我们并没有讨论在无条件设置中尝试扩展 GAN 时可能面临的问题。

BigGAN pix2pixHD 自监督学习 遗忘 自监督的作用针对鉴别器

1. 什么是自监督学习?

所有数据都有“真实”标签 “准确且廉价的标签” V(G,D)=Ex∼Pdata(x)[logPD(S=1∣x)]+Ex∼PG(x)[1−logPD(S=0∣x)] V ( G , D ) = Ex∼Pdata(x) E x∼Pdata(x) x Pdata(x) P data(x) d a t a ( x ) [ l o g PD P D ( S =