许多机器学习算法都采用了受情景记忆启发的记忆模型。然而,几乎所有算法都采用预先定义且严格的机制来编码和检索记忆。通常,无论是否发生了任何有趣的事情,每个时间步都会存储一种预先确定的信息类型。在这里,我们研究了一个基于记忆增强神经网络的模型,该模型在解决模拟迷宫中的导航任务时,可以自主学习将什么以及何时存储到外部内存缓冲区中以及从外部内存缓冲区中检索。代理学习导航到一个未标记的目标,该目标的位置以固定的间隔变化。正如预期的那样,代理在到达目标时学习将信息存储在内存中,之后抑制存储以避免无关信息的干扰。令人惊讶的是,即使模型仅接收相机图像作为输入,记忆中编码的信息也会反映迷宫的二维空间结构。有趣的是,记忆检索的结果已经反映了代理下一步将选择什么动作的信息。我们开发了一个几何理论,解释了记忆中的表示和检索过程中的计算如何产生导航任务的正确解决方案。我们的建模结果显示了纯记忆结构(例如海马体)如何发展空间和动作表征。我们相信,空间任务的结构塑造了代理学习的编码和检索策略,不同的任务最终会导致不同的记忆策略和表征。
主要关键词