没有 TD 学习的 RL XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

没有 TD 学习的 RL

2025年12月23日 14:00 33 Comments

在这篇文章中，我将介绍一种基于“另类”范式的强化学习 (RL) 算法：分而治之。与传统方法不同，该算法不是基于时间差（TD）学习（具有可扩展性...

来源:ΑΙhub

作者：Seohong Park

在这篇文章中，我将介绍一种基于“另类”范式的强化学习 (RL) 算法：分而治之。与传统方法不同，该算法不是基于时间差异 (TD) 学习（存在可扩展性挑战），并且可以很好地扩展到长范围任务。

我们可以基于分治法进行强化学习（RL），而不是时间差分（TD）学习。

问题设置：离策略 RL

我们的问题设置是非策略强化学习。让我们简单回顾一下这意味着什么。

RL 中有两类算法：on-policy RL 和 off-policy RL。同策略 RL 意味着我们只能使用当前策略收集的新数据。换句话说，每次更新策略时我们都必须丢弃旧数据。像 PPO 和 GRPO 这样的算法（以及一般的策略梯度方法）就属于这一类。

Off-policy RL 意味着我们没有这个限制：我们可以使用任何类型的数据，包括旧的经验、人类演示、互联网数据等等。因此，离策略 RL 比在策略 RL 更通用、更灵活（当然也更难！）。 Q-learning 是最著名的离策略强化学习算法。在数据收集成本高昂的领域（例如机器人、对话系统、医疗保健等），我们通常别无选择，只能使用离策略强化学习。这就是为什么它是一个如此重要的问题。

截至 2025 年，我认为我们有相当好的方法来扩大策略 RL（例如，PPO、GRPO 及其变体）。然而，我们仍然没有找到一种“可扩展”的离策略强化学习算法，可以很好地扩展到复杂的、长期的任务。让我简单解释一下原因。

价值学习的两种范式：时间差分（TD）和蒙特卡罗（MC）

在离策略强化学习中，我们通常使用时间差 (TD) 学习（即 Q 学习）来训练价值函数，并遵循以下 Bellman 更新规则：

为了缓解这个问题，人们将 TD 学习与蒙特卡罗 (MC) 回报混合在一起。比如我们可以做一步TD学习（TD-）：

实用算法

适合所有人。

使用时间强化更新规则机器人重要的 GRPO 数据学习算法互联网医疗保健相当好的混合学习的一般的意味着长期的方法 RL 梯度数据收集策略可扩展性值函数 policy 传统方法收集的 TD 价值函数使用复杂的为什么著名的分而治之例如问题 MC PPO