基于梯度的长期世界模型规划 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

基于梯度的长期世界模型规划

2026年4月20日 02:00 33 Comments

GRASP 是一种新的基于梯度的学习动态规划器（“世界模型”），它通过以下方式使长视野规划变得实用：(1) 将轨迹提升到虚拟状态，以便优化在时间上是并行的；(2) 直接向状态迭代添加随机性以进行探索；(3) 重塑梯度，以便动作获得清晰的信号，同时我们通过高维视觉模型避免脆弱的“状态输入”梯度。大型学习世界模型的能力越来越强。他们可以预测高维视觉空间中未来观察的长序列，并以几年前难以想象的方式概括任务。随着这些模型的扩展，它们开始看起来不再像特定于任务的预测器，而更像通用模拟器。但是拥有强大的预测模型并不等于能够有效地将其用于控制/学习/规划。在实践中，现代世界模型的长期规划仍然脆弱：优化变得病态，非贪婪结构会产生不良的局部最小值，而高维潜在空间会引入微妙的故障模式。在这篇博文中，我描述了推动该项目的问题以及我们解决这些问题的方法：为什么现代世界模型的规划可能出人意料地脆弱，为什么长期规划是真正的压力测试，以及我们所做的改变使基于梯度的规划更加稳健。这篇博文讨论了与 Aditi 的 Mike Rabbat 所做的工作克里希纳普里安 (Krishnapriyan)，Yann LeCun

来源:BAIR

GRASP 是一种新的基于梯度的学习动态规划器（“世界模型”），它通过以下方式使长视野规划变得实用：(1) 将轨迹提升到虚拟状态，以便优化在时间上是并行的；(2) 直接向状态迭代添加随机性以进行探索；(3) 重塑梯度，以便动作获得清晰的信号，同时我们通过高维视觉模型避免脆弱的“状态输入”梯度。

大型、博学的世界模型的能力正变得越来越强大。他们可以预测高维视觉空间中未来观察的长序列，并以几年前难以想象的方式概括任务。随着这些模型的扩展，它们开始看起来不再像特定任务的预测器，而更像通用模拟器。

但是拥有强大的预测模型并不等于能够有效地使用它来进行控制/学习/规划。在实践中，现代世界模型的长期规划仍然脆弱：优化变得病态，非贪婪结构会产生不良的局部最小值，高维潜在空间会引入微妙的故障模式。

在这篇博文中，我描述了推动该项目的问题以及我们解决这些问题的方法：为什么现代世界模型的规划可能出奇的脆弱，为什么长期视野是真正的压力测试，以及我们进行了哪些更改以使基于梯度的规划更加稳健。

这篇博文讨论了 Mike Rabbat、Aditi Krishnapriyan、Yann LeCun 和 Amir Bar（* 表示平等顾问）所做的工作，其中我们提出了 GRASP。

什么是世界模型？

如今，“世界模型”一词已经被广泛使用，根据具体情况，它既可以表示显式动态模型，也可以表示生成模型所依赖的某种隐式的、可靠的内部状态（例如，当法学硕士生成国际象棋棋步时，是否存在棋盘的某种内部表示）。我们在下面给出了宽松的工作定义。

规划：通过模型优化来选择操作

不良的最小值在下面可靠的视觉模型预测想象的规划预测器依赖的模型输入广泛使用强大的梯度并行的清晰的压力测试动态模型状态 GRASP 脆弱的为什么故障模式模拟器博文模型的真正的世界动态规划优化进行随机性根据动态观察的高维变得