Loading...
机构名称:
¥ 1.0

提供给文本对图像差异模型的提示的质量决定了生成的内容对用户意图的忠诚程度,通常需要“及时工程”。要通过及时的工程来利用目标图像的视觉概念,当前方法在很大程度上通过优化然后将它们映射到伪tokens来依赖嵌入反演。然而,使用这种高维矢量表示是具有挑战性的,因为它们缺乏语义和可解释性,并且只允许使用它们时模拟矢量操作。相反,这项工作着重于反转扩散模型,以直接获得可靠的语言提示。这样做的挑战在于,由此产生的优化问题从根本上是离散的,提示的空间呈较大。这使得使用标准优化技术,例如随机梯度下降,困难。为此,我们利用延迟的投影方案来访问代表模型中词汇空间的提示。此外,我们利用了扩散过程的时间段与图像中不同级别的细节相差的发现。后来的,嘈杂的,前传扩散过程的时间段对应于语义信息,因此,此范围内的迅速反转提供了代表图像语义的令牌。我们表明,我们的方法可以确定目标图像的语义可解释和有意义的提示,该提示可用于合成具有相似内容的多样化图像。我们说明了优化提示在进化图像生成和概念删除中的应用。

提示文本到图像扩散模型的迅速反转

提示文本到图像扩散模型的迅速反转PDF文件第1页

提示文本到图像扩散模型的迅速反转PDF文件第2页

提示文本到图像扩散模型的迅速反转PDF文件第3页

提示文本到图像扩散模型的迅速反转PDF文件第4页

提示文本到图像扩散模型的迅速反转PDF文件第5页

相关文件推荐

2024 年
¥1.0
2025 年
¥1.0
2024 年
¥6.0
2024 年
¥1.0