扩散模型方法解决生成 AI 图像中的纵横比问题

左侧图片由标准方法生成,而右侧图片由 ElasticDiffusion 生成。两张图片的提示都是“一只运动猫在新闻发布会上向记者解释其最新丑闻的照片。”(图片由 Moayed Haji Ali/莱斯大学提供。)作者:John Bogna 生成式人工智能 […]

来源:ΑΙhub

左侧的图片是由标准方法生成的,而右侧的图片是由弹性散发产生的。这两幅图像的提示都是:“一名运动员猫的照片在向记者的新闻发布会上解释了其最新的丑闻。” (图片由Moayed Haji Ali/Rice University提供。)

约翰·博格纳(John Bogna)

生成的人工智能(AI)臭名昭著地努力创建一致的图像,通常会出现诸如手指和面部对称性之类的细节。此外,当提示以不同图像大小和分辨率生成图像时,这些模型可能会完全失败。

莱斯大学计算机科学家的新方法,该方法具有预训练的扩散模型的图像⎯一类生成的AI模型,通过将一层随机噪声添加到他们在上面训练的图像中添加一层随机噪声来“学习”,然后通过删除添加的噪声来生成新图像⎯可以帮助纠正此类问题。

Moayed Haji Ali是一名稻米大学计算机科学博士生,他在西雅图电气和电子工程师研究所(IEEEE)2024会议上发表了一份名为Elastic-Diffusion的新方法,称为Elastic-Diffusion。

moayed haji ali 2024计算机视觉和模式识别会议(CVPR)

“诸如稳定扩散,Midjourney和Dall-E之类的扩散模型产生了令人印象深刻的结果,产生了相当栩栩如生的逼真和逼真的图像,” Haji Ali说。 “但是它们有弱点:他们只能产生正方形图像。因此,如果您具有不同的长宽比,例如在监视器或智能手表上……这就是这些模型变得有问题的地方。”

如果您告诉诸如稳定扩散之类的模型来创建非方面的图像,例如16:9的纵横比,则用于构建生成图像的元素会重复。这种重复在图像或图像主题中显示为奇怪的畸形,例如有六个手指或奇怪的延长汽车的人。

VicenteOrdóñez-Román Guha BalakrishnanGuha Balakrishnan