Loading...
机构名称:
¥ 1.0

摘要我们提出了一种新的多模式面部图像生成方法,该方法将文本提示和视觉输入(例如语义掩码或涂鸦图)转换为照片真实的面部图像。为此,我们通过使用DM中的多模式特征在预训练的GAN的潜在空间中使用多模式特征来结合一般的对抗网络(GAN)和扩散模型(DMS)的优势。我们提供了一个简单的映射和一个样式调制网络,可将两个模型链接起来,并在特征地图和注意力图中将有意义的表示形式转换为潜在代码。使用gan inversion,估计的潜在代码可用于生成2D或3D感知的面部图像。我们进一步提出了一种多步训练策略,该策略将文本和结构代表反映到生成的图像中。我们提出的网络生成了现实的2D,多视图和风格化的面部图像,这些图像与输入很好。我们通过使用预训练的2D和3D GAN来验证我们的方法,我们的结果表现优于现有方法。我们的项目页面可在https://github.com/1211SH/diffusion-driven_gan-inversion/。

多模式面部图像生成的扩散驱动的GAN倒置

多模式面部图像生成的扩散驱动的GAN倒置PDF文件第1页

多模式面部图像生成的扩散驱动的GAN倒置PDF文件第2页

多模式面部图像生成的扩散驱动的GAN倒置PDF文件第3页

多模式面部图像生成的扩散驱动的GAN倒置PDF文件第4页

多模式面部图像生成的扩散驱动的GAN倒置PDF文件第5页