VideoFlexTok领域信息情报检索---XiaoMi-AI

2026年7月2日 00:00

VideoFlexTok：灵活长度的粗到细视频标记化

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

视觉分词器将高维原始像素映射为下游建模的压缩表示。除了压缩之外，标记器还决定保留哪些信息以及如何组织信息。视频标记化事实上的标准方法是将视频表示为标记的时空 3D 网格，每个标记捕获原始信号中相应的局部信息。这需要使用令牌的下游模型（例如文本到视频模型）学习“逐像素”预测所有低级细节，而不考虑视频固有的复杂性，从而导致......

VideoFlexTok关键词检索结果

VideoFlexTok：灵活长度的粗到细视频标记化