TrajTok:学习轨迹标记可实现更好的视频理解

视频模型中的标记化(通常通过补丁化)会生成过多且冗余的标记。这严重限制了视频效率和可扩展性。虽然最近基于轨迹的标记器通过将视频持续时间与标记计数解耦提供了一种有前途的解决方案,但它们依赖于复杂的外部分段和跟踪管道,这些管道速度缓慢且与任务无关。我们提出 TrajTok,一个端到端视频标记器模块,它与视频模型完全集成并共同训练以实现下游目标,动态调整其标记粒度以适应语义复杂性......

来源:Apple机器学习研究

视频模型中的标记化(通常通过补丁化)会生成过多且冗余的标记。这严重限制了视频效率和可扩展性。虽然最近基于轨迹的标记器通过将视频持续时间与标记计数解耦提供了一种有前途的解决方案,但它们依赖于复杂的外部分段和跟踪管道,这些管道速度缓慢且与任务无关。我们提出了 TrajTok,这是一种端到端视频标记器模块,它与下游目标的视频模型完全集成和共同训练,动态地调整其标记粒度以适应语义复杂性,而与视频时长无关。 TrajTok 包含一个统一的分段器,可以在空间和时间上对像素执行隐式聚类,以在单个前向传递中直接生成对象轨迹。通过优先考虑下游适应性而不是像素完美的分割保真度,TrajTok 是轻量级且高效的,但凭经验提高了视频理解性能。借助 TrajTok,我们实现了从头开始训练的视频 CLIP 模型 (TrajViT2)。它在分类和检索基准上实现了大规模的最佳准确度,同时保持了与最佳标记合并方法相当的效率。 TrajTok 还被证明是一个超越其标记器角色的多功能组件。我们证明它可以无缝集成为预训练视觉特征的探测头(TrajAdapter)或视觉语言模型(TrajVLM)中的对齐连接器,在长视频推理中具有特别强大的性能。

  • † 华盛顿大学
  • ‡ 艾伦人工智能研究所 (AI2)
  • § 由丰田公司编织