没有 TD 学习的 RL

在这篇文章中,我将介绍一种基于“另类”范式的强化学习 (RL) 算法:分而治之。与传统方法不同,该算法不是基于时间差(TD)学习(具有可扩展性...

来源:ΑΙhub

作者:Seohong Park

在这篇文章中,我将介绍一种基于“另类”范式的强化学习 (RL) 算法:分而治之。与传统方法不同,该算法不是基于时间差异 (TD) 学习(存在可扩展性挑战),并且可以很好地扩展到长范围任务。

我们可以基于分治法进行强化学习(RL),而不是时间差分(TD)学习。

问题设置:离策略 RL

我们的问题设置是非策略强化学习。让我们简单回顾一下这意味着什么。

RL 中有两类算法:on-policy RL 和 off-policy RL。同策略 RL 意味着我们只能使用当前策略收集的新数据。换句话说,每次更新策略时我们都必须丢弃旧数据。像 PPO 和 GRPO 这样的算法(以及一般的策略梯度方法)就属于这一类。

Off-policy RL 意味着我们没有这个限制:我们可以使用任何类型的数据,包括旧的经验、人类演示、互联网数据等等。因此,离策略 RL 比在策略 RL 更通用、更灵活(当然也更难!)。 Q-learning 是最著名的离策略强化学习算法。在数据收集成本高昂的领域(例如机器人、对话系统、医疗保健等),我们通常别无选择,只能使用离策略强化学习。这就是为什么它是一个如此重要的问题。

截至 2025 年,我认为我们有相当好的方法来扩大策略 RL(例如,PPO、GRPO 及其变体)。然而,我们仍然没有找到一种“可扩展”的离策略强化学习算法,可以很好地扩展到复杂的、长期的任务。让我简单解释一下原因。

价值学习的两种范式:时间差分(TD)和蒙特卡罗(MC)

在离策略强化学习中,我们通常使用时间差 (TD) 学习(即 Q 学习)来训练价值函数,并遵循以下 Bellman 更新规则:

为了缓解这个问题,人们将 TD 学习与蒙特卡罗 (MC) 回报混合在一起。比如我们可以做一步TD学习(TD-):

实用算法

适合所有人。