详细内容或原文请订阅后点击阅览
深度强化学习:Actor-Critic 方法
机器人朋友合作学习驾驶无人机《深度强化学习:演员-批评家方法》一文首先出现在《走向数据科学》上。
来源:走向数据科学令人沮丧的悬停无人机来自?那个学会下降到平台,穿过它,然后……永远在它下面徘徊的人?是的,我也是。我花了整个下午看着它盘旋在那里,积累负面奖励,就像慢动作崩溃一样,我什至不能生气,因为从技术上讲,它完全按照我告诉它做的事情做。
根本问题是我的奖励函数只能看到当前状态,而看不到轨迹。当我奖励它靠近平台时,它无法区分一架正在着陆的无人机和一架已经通过平台并且现在正在从下面利用奖励结构的无人机之间的区别。奖励函数 r(s') 只是查看无人机所在的位置,而不是它如何到达那里或要去哪里。 (顺便说一句,这将成为一个反复出现的主题。奖励工程此时在我的睡梦中困扰着我。)
但这就是事情变得有趣的地方。当我第一百次盯着我的无人机盘旋在平台下方时,我一直在想:为什么我要等整个情节结束才学到任何东西? REINFORCE 让我收集完整的轨迹,观察无人机坠毁(或偶尔着陆),计算所有回报,然后更新策略。如果我们可以……在每一步之后学习怎么办?比如,在无人机飞行时立即获得反馈?这样不是效率更高吗?
这就是演员评论家。剧透警告:它的效果比我预期的要好得多。好吧,在我修复了三个主要错误,重写了两次奖励函数,花了两天时间认为 PyTorch 坏了(其实不是,我只是用错了),终于明白为什么我的折扣因素让终端奖励完全看不见了。但我们会解决所有这些问题。
