VideoFlexTok：灵活长度的粗到细视频标记化 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

VideoFlexTok：灵活长度的粗到细视频标记化

2026年7月2日 00:00 33 Comments

来源:Apple机器学习研究

视觉分词器将高维原始像素映射为下游建模的压缩表示。除了压缩之外，标记器还决定保留哪些信息以及如何组织信息。视频标记化事实上的标准方法是将视频表示为标记的时空 3D 网格，每个标记捕获原始信号中相应的局部信息。这需要使用令牌的下游模型（例如文本到视频模型）学习“逐像素”预测所有低级细节，而不考虑视频固有的复杂性，从而导致较高的学习复杂性。我们提出了 VideoFlexTok，它表示具有以从粗到细的方式结构化的可变长度令牌序列的视频 - 其中第一个令牌（突然）捕获抽象信息，例如语义和运动，而后面的令牌添加细粒度的细节。生成流解码器可以根据任何令牌计数进行真实的视频重建。这种表示结构允许根据下游需求调整令牌计数，并在相同预算下编码比基线更长的视频。我们在类和文本到视频生成任务上评估了 VideoFlexTok，并表明与 3D 网格标记相比，它可以带来更高效的训练，例如，使用小 5 倍的模型（1.1B 与 5.2B）实现相当的生成质量（gFVD 和 ViCLIP 分数）。最后，我们演示了 VideoFlexTok 如何在仅使用 672 个标记（比同类 3D 网格标记生成器少 8 倍）的 10 秒 81 帧视频上训练文本到视频模型，从而在无需高昂计算成本的情况下生成长视频。

+ 瑞士洛桑联邦理工学院 (EPFL)

** 在 Apple 期间完成的工作

相当的分词器原始解码器像素完成的固有的质量模型真实的文本例如视频信息 VideoFlexTok 事实上标记的细节 3D 表示细粒度生成事实上的令牌标记复杂性后面的相应的计算成本根据标准方法网格标记器

VideoFlexTok：灵活长度的粗到细视频标记化

其他外部链接

Tags

XiaoMi-AI