采访三藤由希:改进人工智能图像生成

Yuki Mitsufuji 是索尼人工智能的首席研究科学家。Yuki 和他的团队在最近的神经信息处理系统会议 (NeurIPS 2024) 上发表了两篇论文。这些作品涉及图像生成的不同方面,标题为:GenWarp:具有语义保留生成扭曲的单幅图像到新视图和 PaGoDA:渐进式增长 […]

来源:ΑΙhub

Yuki Mitsufuji 是 Sony AI 的首席研究科学家。Yuki 和他的团队在最近的神经信息处理系统会议 (NeurIPS 2024) 上发表了两篇论文。这些作品解决了图像生成的不同方面,标题为:GenWarp:具有语义保留生成扭曲的单图像到新视图和 PaGoDA:从低分辨率扩散教师逐步增长一步生成器。我们采访了 Yuki,以了解有关这项研究的更多信息。

GenWarp:具有语义保留生成扭曲的单图像到新视图 PaGoDA:从低分辨率扩散教师逐步增长一步生成器

今天我们想问您两项研究。我们可以从 GenWarp 论文开始吗?您能概述一下您在这项工作中关注的问题吗?

我们旨在解决的问题称为单次新视图合成,即您有一张图像,并希望从不同的相机角度创建同一场景的另一张图像。这个领域已经有很多工作,但仍然存在一个主要挑战:当图像角度发生显着变化时,图像质量会显着下降。我们希望能够基于单个给定图像生成新图像,并提高质量,即使在非常具有挑战性的角度变化设置下也是如此。

您是如何解决这个问题的 - 您的方法是什么?

FID PSNR

人们可以看到使用 GenWarp 创建的一些图像吗?

是的,我们实际上有一个演示,它由两部分组成。一个显示原始图像,另一个显示从不同角度扭曲的图像。

演示

继续讨论 PaGoDA 论文,您在这里讨论了扩散模型的高计算成本?您是如何解决这个问题的?

PaGoDA 的独特之处在于我们在一个系统中跨不同分辨率模型进行训练,这使得它能够实现一步生成,从而使工作流程更加高效。

了解更多信息:

  • GenWarp 演示
  • 标签:

    ,