预测给定控制动作的未来结果的能力对于物理推理至关重要。然而,这种预测模型通常称为世界模型,已被证明具有挑战性的学习,通常是通过在线政策学习中为特定于任务的解决方案而开发的。我们认为,世界模型的真正潜力在于他们仅使用被动数据来推理和计划各种问题的能力。具体而言,我们要求世界模型具有以下三个属性:1)在离线,预采用的轨迹上进行训练,2)支持测试时间行为优化,3)促进任务无关紧要的推理。为了意识到这一点,我们提出了Dino World Model(Dino-WM),这是一种建模视觉动力学的新方法,没有重建视觉世界。Dino-WM利用了通过Dinov2预先训练的空间贴片特征,从而使其能够通过预测未来的补丁功能来从离线行为轨迹中学习。此设计允许Dino-WM通过动作序列优化实现邻国目标,从而通过将所需的目标贴片特征视为预测目标来促进任务不合时宜的行为计划。我们评估跨各个领域的Dino-WM,包括迷宫导航,桌面推动和粒子操纵。我们的实验表明,Dino-WM可以在测试时间生成零拍的行为解决方案,而无需依赖专家演示,奖励建模或预学的逆模型。值得注意的是,与先前的最新作品相比,Dinowm具有强大的概括能力,适应了多种任务家族,例如任意配置的迷宫,具有多种物体形状的推动操纵和多粒子场景。
主要关键词