学习长期运动嵌入以高效生成运动学 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

学习长期运动嵌入以高效生成运动学

2026年4月24日 00:00 33 Comments

来源:Apple机器学习研究

理解和预测运动是视觉智能的基本组成部分。尽管现代视频模型表现出对场景动态的强大理解，但通过完整的视频合成探索多种可能的未来仍然效率极低。通过直接对从跟踪器模型获得的大规模轨迹中学习的长期运动嵌入进行操作，我们可以更有效地对场景动力学数量级进行建模。这使得能够有效地生成长而真实的运动，从而实现通过文本提示或空间戳指定的目标。为了实现这一目标，我们首先学习时间压缩因子为 64 倍的高度压缩运动嵌入。在这个空间中，我们训练一个条件流匹配模型来生成以任务描述为条件的运动潜伏。由此产生的运动分布优于最先进的视频模型和专门的特定任务方法。

† 德国慕尼黑大学 CompVis

‡ 慕尼黑机器学习中心

数量级压缩因子理解任务专门的条件时间压缩运动先进的嵌入动态的学习中心模型真实的学习的实现机器学习指定的视频动力学场景出对德国慕尼黑大学完整的大规模进行空间动态可能的

学习长期运动嵌入以高效生成运动学

其他外部链接

Tags

XiaoMi-AI