学习长期运动嵌入以高效生成运动学

理解和预测运动是视觉智能的基本组成部分。尽管现代视频模型表现出对场景动态的强大理解,但通过完整的视频合成探索多种可能的未来仍然效率极低。通过直接对从跟踪器模型获得的大规模轨迹中学习的长期运动嵌入进行操作,我们可以更有效地对场景动力学数量级进行建模。这使得能够有效地生成长而真实的运动,从而实现通过文本提示或空间戳指定的目标。为了实现这一目标,我们...

来源:Apple机器学习研究

理解和预测运动是视觉智能的基本组成部分。尽管现代视频模型表现出对场景动态的强大理解,但通过完整的视频合成探索多种可能的未来仍然效率极低。通过直接对从跟踪器模型获得的大规模轨迹中学习的长期运动嵌入进行操作,我们可以更有效地对场景动力学数量级进行建模。这使得能够有效地生成长而真实的运动,从而实现通过文本提示或空间戳指定的目标。为了实现这一目标,我们首先学习时间压缩因子为 64 倍的高度压缩运动嵌入。在这个空间中,我们训练一个条件流匹配模型来生成以任务描述为条件的运动潜伏。由此产生的运动分布优于最先进的视频模型和专门的特定任务方法。

  • † 德国慕尼黑大学 CompVis
  • ‡ 慕尼黑机器学习中心