无分类器指导(CFG)已广泛用于文本到图像扩散模型中,其中引入了CFG量表以控制整个图像空间的文本指导强度。但是,我们认为全球CFG量表会导致空间不一致,这是不同的脱节优势和次优的图像质量。为了解决这个问题,我们提出了一种新颖的方法,即语义意识的无分类器指导(S-CFG),以自定义文本到图像扩散模型中不同语义单元的指导学位。具体来说,我们首先设计了一种训练 - 免费的语义分割方法,将潜在图像分配到每个Denoising步骤中相对独立的语义区域。尤其是,将U-NET主链中的跨意义图被重新归一化,以将每个贴片分配给相应的令牌,而自我注意力图则用于完成语义区域。然后,为了平衡各种语义单元的扩增,我们会自适应地调整各个不同区域的CFG尺度,以将文本指导学度重新确定为统一水平。最后,广泛的实验证明了S-CFG优于原始CFG策略在各种文本到图像扩散模型上的优越性,而无需任何额外的培训成本。我们的代码可在https://github.com/smilesdzgk/s-cfg上找到。
主要关键词