flextok:将图像重新采样到柔性长度的1D令牌序列

这项工作是与瑞士联邦技术学院Lausanne(EPFL)合作完成的。图像令牌化已通过提供比原始像素更有效处理的压缩,离散表示,从而实现了自回归图像生成的重大进展。尽管传统方法使用2D网格令牌化,但诸如Titok之类的最新方法表明,1D令牌化可以通过消除网格冗余来实现高生成质量。但是,这些方法通常使用固定数量的令牌,因此无法适应图像的固有复杂性。我们介绍…

来源:Apple机器学习研究

这项工作是与瑞士联邦技术学院Lausanne(EPFL)合作完成的。

这项工作是与瑞士联邦技术学院Lausanne(EPFL)合作完成的。

图像令牌化已通过提供比原始像素更有效地处理的压缩,离散表示来实现自回归图像生成的重大进展。尽管传统方法使用2D网格令牌化,但诸如Titok之类的最新方法表明,1D令牌化可以通过消除网格冗余来实现高生成质量。但是,这些方法通常使用固定数量的令牌,因此无法适应图像的固有复杂性。我们介绍了flextok,这是一个将2D图像投射到可变长度的,下令1D令牌序列的代币。例如,可以将256x256图像重新采样到1到256个离散令牌,从层次和语义上压缩其信息。通过训练一个整流的流程模型作为解码器并使用嵌套辍学器,flextok会产生合理的重建,而不论所选的令牌序列长度如何。我们使用简单的GPT风格的变压器在自回归生成设置中评估我们的方法。在ImageNet上,这种方法在8至128个令牌上实现了FID <2,表现优于Titok,并且具有较少令牌的最新方法。我们进一步扩展了该模型以支持文本条件的图像生成,并研究Flextok与传统2D令牌化的关系。一个关键的发现是,弗莱克斯托克(Flextok)使下一步的预测可以在粗到精细的“视觉词汇”中描述图像,并且要生成的令牌数量取决于生成任务的复杂性。

*同等贡献。 †与苹果和瑞士联邦技术学院洛桑(EPFL)共同关联。‡瑞士联邦技术学院洛桑(EPFL)。