详细内容或原文请订阅后点击阅览
VideoFlexTok:灵活长度的粗到细视频标记化
视觉分词器将高维原始像素映射为下游建模的压缩表示。除了压缩之外,标记器还决定保留哪些信息以及如何组织信息。视频标记化事实上的标准方法是将视频表示为标记的时空 3D 网格,每个标记捕获原始信号中相应的局部信息。这需要使用令牌的下游模型(例如文本到视频模型)学习“逐像素”预测所有低级细节,而不考虑视频固有的复杂性,从而导致......
来源:Apple机器学习研究视觉分词器将高维原始像素映射为下游建模的压缩表示。除了压缩之外,标记器还决定保留哪些信息以及如何组织信息。视频标记化事实上的标准方法是将视频表示为标记的时空 3D 网格,每个标记捕获原始信号中相应的局部信息。这需要使用令牌的下游模型(例如文本到视频模型)学习“逐像素”预测所有低级细节,而不考虑视频固有的复杂性,从而导致较高的学习复杂性。我们提出了 VideoFlexTok,它表示具有以从粗到细的方式结构化的可变长度令牌序列的视频 - 其中第一个令牌(突然)捕获抽象信息,例如语义和运动,而后面的令牌添加细粒度的细节。生成流解码器可以根据任何令牌计数进行真实的视频重建。这种表示结构允许根据下游需求调整令牌计数,并在相同预算下编码比基线更长的视频。我们在类和文本到视频生成任务上评估了 VideoFlexTok,并表明与 3D 网格标记相比,它可以带来更高效的训练,例如,使用小 5 倍的模型(1.1B 与 5.2B)实现相当的生成质量(gFVD 和 ViCLIP 分数)。最后,我们演示了 VideoFlexTok 如何在仅使用 672 个标记(比同类 3D 网格标记生成器少 8 倍)的 10 秒 81 帧视频上训练文本到视频模型,从而在无需高昂计算成本的情况下生成长视频。
