详细内容或原文请订阅后点击阅览
Actor-Critics 背后的想法以及 A2C 和 A3C 如何改进它们
演员批评家、A2C、A3C
来源:AI夏令营现在是强化学习的时间了。这次我们的主要话题是 Actor-Critic 算法,它是从近端策略优化到 A3C 的几乎所有现代 RL 方法背后的基础。因此,要理解所有这些新技术,您应该很好地掌握 Actor-Critic 是什么以及它们是如何工作的。
但不要着急。让我们暂时回顾一下我们之前的知识。您可能知道,有两种主要类型的 RL 方法:
- 基于价值:它们试图找到或近似最佳价值函数,这是动作和价值之间的映射。价值越高,动作越好。最著名的算法是 Q 学习及其所有增强功能,如深度 Q 网络、双决斗 Q 网络等基于策略的:基于策略的算法,如策略梯度和强化学习,试图直接找到最佳策略,而无需 Q 值作为中间人。
基于价值:它们试图找到或近似最优价值函数,即动作和价值之间的映射。价值越高,动作越好。最著名的算法是 Q 学习及其所有增强算法,如深度 Q 网络、双决斗 Q 网络等
价值 Q 学习 增强算法基于策略:基于策略的算法(如策略梯度和强化算法)尝试直接找到最优策略,而无需 Q 值作为中间人。
策略梯度 帖子主要思想是将模型一分为二:一个用于根据状态计算动作,另一个用于生成动作的 Q 值。
学习最优策略 生成对抗网络