没有 TD 学习的 RL

在这篇文章中,我将介绍一种基于“另类”范式的强化学习 (RL) 算法:分而治之。与传统方法不同,该算法不是基于时间差(TD)学习(存在可扩展性挑战),并且可以很好地扩展到长视野任务。我们可以基于分而治之进行强化学习(RL),而不是时间差(TD)学习。问题设置:离策略RL我们的问题设置是离策略RL。让我们简单回顾一下这意味着什么。强化学习中有两类算法:在策略强化学习和离策略强化学习。同策略 RL 意味着我们只能使用当前策略收集的新数据。换句话说,每次更新策略时我们都必须丢弃旧数据。像 PPO 和 GRPO 这样的算法(以及一般的策略梯度方法)就属于这一类。离策略 RL 意味着我们没有这个限制:我们可以使用任何类型的数据,包括旧的经验、人类演示、互联网数据等等。因此,离策略 RL 比在策略 RL 更通用、更灵活(当然也更难!)。 Q-learning 是最著名的离策略强化学习算法。在数据收集成本高昂的领域(例如机器人、对话系统、医疗保健等),我们通常别无选择,只能使用离策略强化学习。这就是为什么它是一个如此重要的问题。到 2025 年,我认为我们已经有了相当好的方法来扩大同策略 RL(例如,PPO、GRPO 及其变体)。然而,我们仍然没有找到一个“可扩展的”off-p

来源:BAIR
在这篇文章中,我将介绍一种基于“另类”范式的强化学习 (RL) 算法:分而治之。与传统方法不同,该算法不是基于时间差(TD)学习(存在可扩展性挑战),并且可以很好地扩展到长视野任务。我们可以基于分而治之进行强化学习(RL),而不是时间差(TD)学习。问题设置:离策略RL我们的问题设置是离策略RL。让我们简单回顾一下这意味着什么。强化学习中有两类算法:在策略强化学习和离策略强化学习。同策略 RL 意味着我们只能使用当前策略收集的新数据。换句话说,每次更新策略时我们都必须丢弃旧数据。像 PPO 和 GRPO 这样的算法(以及一般的策略梯度方法)就属于这一类。离策略 RL 意味着我们没有这个限制:我们可以使用任何类型的数据,包括旧的经验、人类演示、互联网数据等等。因此,离策略 RL 比在策略 RL 更通用、更灵活(当然也更难!)。 Q-learning 是最著名的离策略强化学习算法。在数据收集成本高昂的领域(例如机器人、对话系统、医疗保健等),我们通常别无选择,只能使用离策略强化学习。这就是为什么它是一个如此重要的问题。到 2025 年,我认为我们已经有了相当好的方法来扩大同策略 RL(例如,PPO、GRPO 及其变体)。然而,我们仍然没有找到一种“可扩展”的离策略强化学习算法,可以很好地扩展到复杂的、长期的任务。让我简单解释一下原因。价值学习的两种范式:时间差(TD)和蒙特卡罗(MC)在离策略强化学习中,我们通常使用时间差(TD)学习(即 Q 学习)来训练价值函数,并采用以下 Bellman 更新规则:\[\begin{aligned} Q(s, a) \gets r + \gamma \max_{a'} Q(s', a'), \end{aligned}\]问题是这样的:下一个值 $Q(s', a')$ 中的错误传播到当前值 $Q