VideoFlexTok关键词检索结果

VideoFlexTok:灵活长度的粗到细视频标记化

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

视觉分词器将高维原始像素映射为下游建模的压缩表示。除了压缩之外,标记器还决定保留哪些信息以及如何组织信息。视频标记化事实上的标准方法是将视频表示为标记的时空 3D 网格,每个标记捕获原始信号中相应的局部信息。这需要使用令牌的下游模型(例如文本到视频模型)学习“逐像素”预测所有低级细节,而不考虑视频固有的复杂性,从而导致......