预测器关键词检索结果

基于梯度的长期世界模型规划

Gradient-based Planning for World Models at Longer Horizons

GRASP 是一种新的基于梯度的学习动态规划器(“世界模型”),它通过以下方式使长视野规划变得实用:(1) 将轨迹提升到虚拟状态,以便优化在时间上是并行的;(2) 直接向状态迭代添加随机性以进行探索;(3) 重塑梯度,以便动作获得清晰的信号,同时我们通过高维视觉模型避免脆弱的“状态输入”梯度。大型学习世界模型的能力越来越强。他们可以预测高维视觉空间中未来观察的长序列,并以几年前难以想象的方式概括任务。随着这些模型的扩展,它们开始看起来不再像特定于任务的预测器,而更像通用模拟器。但是拥有强大的预测模型并不等于能够有效地将其用于控制​​/学习/规划。在实践中,现代世界模型的长期规划仍然脆弱:优化变