Loading...
机构名称:
¥ 1.0

部分可观察到的环境中有效的决策需要强大的内存管理。尽管他们在监督学习方面取得了成功,但当前的深度学习记忆模型在强化学习环境中挣扎,这些学习环境是可以观察到的,这些模型是可以观察到的。他们无法有效地捕获相关的过去信息,灵活地适应不断变化的观察结果,并在长剧集中保持稳定的更新。我们从理论上分析了统一框架内现有内存模型的局限性,并引入了稳定的Hadamard内存,这是一种用于增强学习剂的新型内存模型。我们的模型通过不再需要经验并在计算上有效地加强至关重要的体验来动态调整内存。为此,我们利用Hadamard产品来校准和更新内存,专门设计用于增强记忆能力,同时减轻数值和学习挑战。我们的方法极大地超过了基于最先进的内存方法,这些方法在挑战的部分可观察的基准(例如元提升学习,长期的信用分配和流行音乐)上表现出了在处理长期和不断发展的环境中的出色表现。我们的源代码可在https://github.com/thaihungle/shm上找到。

稳定的Hadamard内存

稳定的Hadamard内存PDF文件第1页

稳定的Hadamard内存PDF文件第2页

稳定的Hadamard内存PDF文件第3页

稳定的Hadamard内存PDF文件第4页

稳定的Hadamard内存PDF文件第5页