详细内容或原文请订阅后点击阅览
采用自我监督表示作为高效生成的潜在空间
我们引入了 Representation Tokenizer (RepTok),这是一种生成建模框架,它使用从自监督视觉转换器获得的单个连续潜在标记来表示图像。在预先训练的 SSL 编码器的基础上,我们仅微调语义标记嵌入,并将其与使用标准流匹配目标联合训练的生成解码器配对。这种适应通过低级的、与重建相关的细节丰富了令牌,从而实现了忠实的图像重建。为了保留原始 SSL 空间的有利几何形状,我们添加了余弦相似度损失......
来源:Apple机器学习研究我们引入了 Representation Tokenizer (RepTok),这是一种生成建模框架,它使用从自监督视觉转换器获得的单个连续潜在标记来表示图像。在预先训练的 SSL 编码器的基础上,我们仅微调语义标记嵌入,并将其与使用标准流匹配目标联合训练的生成解码器配对。这种适应通过低级的、与重建相关的细节丰富了令牌,从而实现了忠实的图像重建。为了保留原始 SSL 空间的有利几何形状,我们添加了余弦相似性损失,以规范适应的令牌,确保潜在空间保持平滑并适合生成。我们的单令牌公式解决了二维潜在空间的空间冗余,并显着降低了培训成本。尽管简单高效,RepTok 在类条件 ImageNet 生成上取得了有竞争力的结果,并自然地扩展到文本到图像合成,在极其有限的训练预算下在 MS-COCO 上达到了有竞争力的零样本性能。我们的研究结果强调了微调 SSL 表示作为高效生成建模的紧凑且有效的潜在空间的潜力。
- † CompVis @ LMU 慕尼黑‡ 慕尼黑机器学习中心 (MCML)* 同等贡献
