增强学习中的内存跟踪

T-Maze如下所示,是在增强学习领域研究的任务的典型示例。人造代理从左侧进入迷宫,并立即收到两个可能的观察之一:红色或绿色。红色意味着代理人将在右端移动到顶部[…]

来源:ΑΙhub

T-Maze如下所示,是在增强学习领域研究的任务的典型示例。人造代理从左侧进入迷宫,并立即收到两个可能的观察之一:红色或绿色。红色意味着代理人将在走廊的右端移动到顶部(在问号瓷砖中),而绿色表示相反:代理人将因向下移动而获得奖励。尽管这似乎是一项琐碎的任务,但现代的机器学习算法(例如Q学习)无法学习所需的行为。这是因为这些算法旨在解决马尔可夫决策过程(MDP)。在MDP中,最佳剂是反应性的:最佳作用仅取决于当前的观察。但是,在T迷宫中,蓝色问号图块没有提供足够的信息:最佳动作(上下)也取决于第一个观察结果(红色或绿色)。这种环境称为部分可观察到的马尔可夫决策过程(POMDP)。

马尔可夫决策过程 部分可观察到的马尔可夫决策过程

在POMDP中,代理必须保留对过去观察的记忆。最常见的内存类型是固定长度的滑动窗口。如果直到时间的观察值的完整历史记录是,则滑动窗口存储器为。在T迷宫中,由于我们必须记住第一个观察到直到到达蓝色瓷砖,因此窗户的长度必须至少等于走廊的长度。这种方法的问题在于,用长窗口学习很昂贵!我们可以证明[1],使用长度窗口的学习通常需要许多样本,这些样本呈指数缩放。因此,如果走廊很长,则在T-Maze中学习使用幼稚的滑动窗口记忆是无法处理的。

[1] 内存轨迹

如果我们改变了遗忘因素,则图片会发生变化,如下所示。

参考

使用内存痕迹的部分可观察的强化学习

标签:

深水潜水

icml