GAN计算机视觉中的 GAN - 语义图像合成和从单个图像学习生成模型

计算机视觉中 GAN 的第六篇文章系列 - 我们探索语义图像合成和从单个图像学习生成模型

来源:AI夏令营

到目前为止,我们已经看到了多个计算机视觉任务,例如对象生成、视频合成、非配对图像到图像转换。现在,我们在总结 GAN 诞生以来所有最具影响力的作品的过程中,已经看到了 2019 年的出版物。我们专注于直觉和设计选择,而不是枯燥的报告数字。最后,如果结果不吸引人,报告的数字在视觉生成任务中的价值是什么?

到目前为止 对象生成 视频合成 非配对图像到图像转换

在本节中,我们选择了两个独特的出版物:基于分割图的图像合成和基于单个参考图像的无条件生成。我们提出了设计 GAN 时必须考虑的多个观点。我们将在本教程中介绍的模型已经从许多角度开箱即用地解决了这些任务。

基于分割图的图像合成 基于单个参考图像 设计 GAN

让我们开始吧!

GauGAN(具有空间自适应规范化的语义图像合成 2019)

GauGAN

我们已经看到很多作品将分割图作为输入并输出图像。当某件事情很好时,我脑海中总是会出现一个问题:我们能做得更好吗?

假设我们可以进一步扩展这个想法。假设我们想要根据分割图和参考图像生成图像。这项任务被定义为语义图像合成,非常重要。我们不仅根据分割图生成不同的图像,而且我们进一步约束我们的模型以考虑我们想要的参考图像。

定义为语义图像合成

这项工作是 NVidia 在计算机视觉 GAN 领域的缩影。它大量借鉴了 pix2pixHD 和 StyleGAN 的先前工作。实际上,他们借用了 pix2pixHD 的多尺度鉴别器。让我们看看它是如何工作的:

pix2pixHD StyleGAN

多尺度 pix2pixHD 鉴别器概述,图像金字塔借用自此处

此处 A d a I