强化学习的基本选择：On-Policy 与 Off-Policy XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

强化学习的基本选择：On-Policy 与 Off-Policy

2026年6月5日 15:00 33 Comments

一个简单的选择如何影响探索、安全性和效率这篇文章《强化学习的基本选择：在策略与离策略》首先出现在《走向数据科学》上。

来源:走向数据科学

通常是通过一长串算法引入的。 SARSA、Q-learning、PPO、DQN、SAC 等。每个名称似乎都指向不同的方法、不同的技巧或不同的数学公式。但其中许多算法都是围绕一个简单得多的问题构建的：

代理应该只从当前使用的行为中学习，还是也可以从以其他方式生成的行为中学习？

这是在政策学习和离政策学习之间的主要区别。

为了使这种区别直观，我们需要一个基本定义。在强化学习中，策略是代理用来决定在每种情况下采取什么行动的规则或策略。一旦这个想法清晰了，对比就变得更容易看到。同策略方法从代理当前遵循的相同策略中学习。离策略方法将两者分开。代理可能会根据一种策略行事，同时了解另一种策略。

这不仅仅是术语。它影响学习算法的一些最重要的属性：它如何探索，它需要多少数据，它是否可以从旧的经验中学习，以及训练的稳定性如何。在数据便宜的环境中，这似乎是一种技术选择。在数据收集成本高、速度慢或有风险的环境中，数据收集就成为一种实际需要。

考虑一个机器人正在学习如何在繁忙的仓库中移动。出于安全原因，其在训练期间的行为可能需要保持保守。在策略方法可以直接改善这种保守行为。离策略方法允许更灵活的方法，例如，机器人可以继续谨慎行事，同时从收集的经验中学习最终可能表现更好的不同策略。智能体的行为方式和它所学到的内容之间的分离是离策略学习背后的关键思想。

你会带走什么：

1. 智能体想要学习什么？

在状态（s）中采取行动（a）是个好主意吗？

我们必须记住两个重要术语：

策略收集的重要的数学公式训练的引入的背后的灵活的不同的便宜的使用的行为数据收集代理稳定性训练期方法可能需要学习有风险的根据机器人算法数据保守

强化学习的基本选择：On-Policy 与 Off-Policy

1. 智能体想要学习什么？

其他外部链接

Tags

XiaoMi-AI