深度强化学习：Actor-Critic 方法 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

深度强化学习：Actor-Critic 方法

2026年1月1日 13:00 33 Comments

机器人朋友合作学习驾驶无人机《深度强化学习：演员-批评家方法》一文首先出现在《走向数据科学》上。

来源:走向数据科学

令人沮丧的悬停无人机来自？那个学会下降到平台，穿过它，然后……永远在它下面徘徊的人？是的，我也是。我花了整个下午看着它盘旋在那里，积累负面奖励，就像慢动作崩溃一样，我什至不能生气，因为从技术上讲，它完全按照我告诉它做的事情做。

根本问题是我的奖励函数只能看到当前状态，而看不到轨迹。当我奖励它靠近平台时，它无法区分一架正在着陆的无人机和一架已经通过平台并且现在正在从下面利用奖励结构的无人机之间的区别。奖励函数 r(s') 只是查看无人机所在的位置，而不是它如何到达那里或要去哪里。（顺便说一句，这将成为一个反复出现的主题。奖励工程此时在我的睡梦中困扰着我。）

但这就是事情变得有趣的地方。当我第一百次盯着我的无人机盘旋在平台下方时，我一直在想：为什么我要等整个情节结束才学到任何东西？ REINFORCE 让我收集完整的轨迹，观察无人机坠毁（或偶尔着陆），计算所有回报，然后更新策略。如果我们可以……在每一步之后学习怎么办？比如，在无人机飞行时立即获得反馈？这样不是效率更高吗？

这就是演员评论家。剧透警告：它的效果比我预期的要好得多。好吧，在我修复了三个主要错误，重写了两次奖励函数，花了两天时间认为 PyTorch 坏了（其实不是，我只是用错了），终于明白为什么我的折扣因素让终端奖励完全看不见了。但我们会解决所有这些问题。

移动目标问题让我的批评者损失永远振荡，因为我没有分离 TD 目标（这个问题让我质疑我对反向传播的整个理解）

什么是演员评论家？

轨迹奖励演员函数结构的反向传播为什么盘旋整个飞行平台无人机反馈预期的我什一架计算所事情问题慢动作完整的着陆的评论家移动目标

深度强化学习：Actor-Critic 方法

什么是演员评论家？

其他外部链接

Tags

XiaoMi-AI