当啮齿动物学习目标导航时,在奖励地点形成了位置场的高度确定性,并且该田地的宽度和偏向运动方向而增加。但是,在任务学习过程中表征现场分布的规范框架仍然难以捉摸。我们假设观察到的位置场动力学是国家表示学习的一个特征,该学习有助于政策学习最大化强化学习。我们开发了一种使用高斯基函数的代理来对直接突触到策略网络的位置字段进行建模。每个字段的中心,宽度和幅度均可通过试用试验更新策略参数,以最大程度地提高累积折扣奖励。当经纪人学习在具有障碍的一维轨道或二维环境中导航到目标时,较高数量的高斯田地在目标附近组织起来,而其余的田地则在宽度上增加了目标轨迹。我们表明,如有效的编码假设所指出的那样,该位置在位置的频率与该位置的田间密度之间的相关性增加。此外,高斯磁场沿着目标轨迹聚集的位置伸长,具有相似的作用,类似于成功的映射。我们进一步表明,当基本函数的数量较低时,该学到的地图有助于更快的策略收敛。得出结论,我们开发了一个规范模型,该模型概括了几个hip-pocampus位置领域学习动力学,并统一替代建议,以为未来的实验提供可测试的预测。
主要关键词