计算机视觉中的 GAN - 2K 图像和视频合成,以及大规模类条件图像生成

计算机视觉中 GAN 的第四篇文章系列 - 我们探索使用多尺度 GAN 方法的 2K 图像生成、具有时间一致性的视频合成以及 ImageNet 中的大规模类条件图像生成。

来源:AI夏令营

计算机视觉确实是 GAN 的一个有前途的应用领域。到目前为止,我们专注于条件和非条件图像生成。在上一篇文章中,我们提供了很多方面,例如使用 Wasserstein 损失进行训练、理解解开的表示、使用不同策略建模全局和局部结构、GAN 的渐进增量训练等。尽管如此,计算机视觉中的深度学习包括各种很棒的任务,例如对象生成、视频生成等。我们实际上首次使用渐进式 GAN 达到了百万像素分辨率的水平。问题是:我们能做得更好吗?

图像生成 帖子 渐进式 GAN 我们能做得更好吗

在本部分中,我们将检查 2K 图像和视频合成、大规模条件图像生成。我们的广泛分析试图弥补您可能与该领域以前的工作存在差距。我们将复习一系列计算机视觉概念,例如对象检测、语义分割、实例语义分割。基本上,我们希望利用所有可用的标签和高精度网络来最大化视觉质量。这意味着即使是那些可以从最先进的深度学习模型中生成的标签和网络。自 2018 年以来,GAN 因其广泛的酷炫应用而受到社区的广泛关注,尤其是在计算机视觉领域。然而,人们很容易理解,自 2017 年底推出渐进式 GAN 以来,NVidia 开始在计算机视觉领域拥有 GAN!我们将分析以下三个基础工作:

对象检测 语义分割 实例语义分割 利用所有可用的标签 自 2017 年底推出渐进式 GAN 以来,NVidia 开始在计算机视觉领域拥有 GAN!

pix2pixHD(使用条件 GAN 进行高分辨率图像合成和语义处理 2017)

pix2pixHD pix2pix

但他们如何设法以多尺度方式改进 pix2pix?

分解生成器

LFM L FM F M (