Loading...
机构名称:
¥ 2.0

文本对图像和图像对文本创建[1,2]由于其广泛使用而变得非常流行。这种比较分析的目的是确定各种文本到图像创建技术的优势和缺点[3]。我们可以通过研究其建筑设计来了解促进其图片综合技能的基本机制。Cogview (ELBO), discrete variational auto-encoders (dVAE), multi-stage AttnGAN, generative adversarial networks (GANs), LSTM+GAN, CycleGAN+BERT, DF-GAN, MirrorGAN, VQ-SEG (a modified VQ-VAE), StackGAN+fine-tuned BERT text encoding models, and DALL-E-2 are among the models investigated.除了建筑比较外,我们还要查看这些模型用于培训和评估的数据集。这包括众所周知的基准,例如可可和幼崽,以及针对文本到图像创建的定制数据集[4]。这些数据集的多样性和数量以及所使用的任何预处理技术都对模型性能产生重大影响。在现场使用了各种性能指标来分析生产照片的质量。我们的研究包含

文本到图像中的进步

文本到图像中的进步PDF文件第1页

文本到图像中的进步PDF文件第2页

文本到图像中的进步PDF文件第3页

文本到图像中的进步PDF文件第4页

文本到图像中的进步PDF文件第5页