采访Yuki Mitsufuji:改进AI图像生成

Yuki Mitsufuji是Sony AI的主要研究科学家。 Yuki和他的团队在最近的神经信息处理系统会议上发表了两篇论文(Neurips 2024)。这些作品应对图像生成的不同方面,并具有标题:Genwarp:具有语义保护生成翘曲和宝塔的新型图像:[…]

来源:Robohub

Yuki Mitsufuji是Sony AI的主要研究科学家。 Yuki和他的团队在最近的神经信息处理系统会议上发表了两篇论文(Neurips 2024)。这些作品应对图像产生的不同方面,并具有名为:Genwarp:具有语义性生成翘曲和宝塔的新型图像:从低分辨率扩散教师中逐步生长一步生成器。我们赶上了Yuki,以了解有关这项研究的更多信息。

genwarp:单图像具有语义的生成翘曲 宝塔:低分辨率扩散教师的一步发电机的逐步生长

今天我们想问您两项研究。我们可以从Genwarp纸开始吗?您能概述您在这项工作中关注的问题吗?

我们旨在解决的问题称为单发小说视图合成,这是您拥有一个图像的地方,并希望从不同的摄像机角度创建同一场景的另一个图像。在这个领域有很多工作,但仍然存在一个主要的挑战:当图像角度变化时,图像质量会大大降低。我们希望能够基于单个给定的图像生成新图像,并提高质量,即使在非常具有挑战性的角度变化设置中也是如此。

您是如何解决这个问题的 - 您的方法论是什么?

fid psnr

人们可以看到使用Genwarp创建的一些图像吗?

是的,我们实际上有一个演示,该演示由两个部分组成。一个显示原始图像,另一个显示了从不同角度显示扭曲的图像。

演示

移到宝塔纸上,您在这里解决扩散模型的高计算成本?您是如何解决这个问题的?

宝塔的独特性是,我们在一个系统中跨越不同的分辨率模型训练,这使其能够达到一步生成,从而使工作流程更加有效。

了解更多信息:

  • genwarp demo
  • aihub