详细内容或原文请订阅后点击阅览
基于梯度的长期世界模型规划
GRASP 是一种新的基于梯度的学习动态规划器(“世界模型”),它通过以下方式使长视野规划变得实用:(1) 将轨迹提升到虚拟状态,以便优化在时间上是并行的;(2) 直接向状态迭代添加随机性以进行探索;(3) 重塑梯度,以便动作获得清晰的信号,同时我们通过高维视觉模型避免脆弱的“状态输入”梯度。大型学习世界模型的能力越来越强。他们可以预测高维视觉空间中未来观察的长序列,并以几年前难以想象的方式概括任务。随着这些模型的扩展,它们开始看起来不再像特定于任务的预测器,而更像通用模拟器。但是拥有强大的预测模型并不等于能够有效地将其用于控制/学习/规划。在实践中,现代世界模型的长期规划仍然脆弱:优化变得病态,非贪婪结构会产生不良的局部最小值,而高维潜在空间会引入微妙的故障模式。在这篇博文中,我描述了推动该项目的问题以及我们解决这些问题的方法:为什么现代世界模型的规划可能出人意料地脆弱,为什么长期规划是真正的压力测试,以及我们所做的改变使基于梯度的规划更加稳健。这篇博文讨论了与 Aditi 的 Mike Rabbat 所做的工作克里希纳普里安 (Krishnapriyan),Yann LeCun
来源:BAIRGRASP 是一种新的基于梯度的学习动态规划器(“世界模型”),它通过以下方式使长视野规划变得实用:(1) 将轨迹提升到虚拟状态,以便优化在时间上是并行的;(2) 直接向状态迭代添加随机性以进行探索;(3) 重塑梯度,以便动作获得清晰的信号,同时我们通过高维视觉模型避免脆弱的“状态输入”梯度。
大型、博学的世界模型的能力正变得越来越强大。他们可以预测高维视觉空间中未来观察的长序列,并以几年前难以想象的方式概括任务。随着这些模型的扩展,它们开始看起来不再像特定任务的预测器,而更像通用模拟器。
但是拥有强大的预测模型并不等于能够有效地使用它来进行控制/学习/规划。在实践中,现代世界模型的长期规划仍然脆弱:优化变得病态,非贪婪结构会产生不良的局部最小值,高维潜在空间会引入微妙的故障模式。
在这篇博文中,我描述了推动该项目的问题以及我们解决这些问题的方法:为什么现代世界模型的规划可能出奇的脆弱,为什么长期视野是真正的压力测试,以及我们进行了哪些更改以使基于梯度的规划更加稳健。
这篇博文讨论了 Mike Rabbat、Aditi Krishnapriyan、Yann LeCun 和 Amir Bar(* 表示平等顾问)所做的工作,其中我们提出了 GRASP。
什么是世界模型?
如今,“世界模型”一词已经被广泛使用,根据具体情况,它既可以表示显式动态模型,也可以表示生成模型所依赖的某种隐式的、可靠的内部状态(例如,当法学硕士生成国际象棋棋步时,是否存在棋盘的某种内部表示)。我们在下面给出了宽松的工作定义。
