主动推理是理解生物智能的贝叶斯框架。其基本理论将感知和行动归结为一个单一的命令:最小化自由能。然而,尽管它在解释智能方面具有理论效用,但计算实现却仅限于低维和理想化的情况。在本文中,我们提出了一种神经架构,用于构建在复杂、连续状态空间中运行的深度主动推理代理,使用多种形式的蒙特卡罗 (MC) 采样。为此,我们介绍了一些对主动推理来说新颖的技术。这些包括:i) 通过 MC 树搜索选择自由能量最优策略,ii) 通过前馈“习惯性”网络近似该最优策略分布,iii) 使用 MC 丢失预测未来参数信念更新,最后,iv) 优化状态转换精度(一种高端注意力形式)。我们的方法使代理能够有效地学习环境动态,同时与基于奖励的对应者相比保持任务性能。我们在基于 dSprites 数据集的新玩具环境中说明了这一点,并证明主动推理代理会自动创建适合建模状态转换的解开表示。在更复杂的 Animal-AI 环境中,我们的代理(使用相同的神经架构)能够模拟未来的状态转换和动作(即计划),以显示奖励导向的导航 - 尽管暂时停止了视觉输入。这些结果表明,配备 MC 方法的深度主动推理提供了一个灵活的框架来开发受生物启发的智能代理,可应用于机器学习和认知科学。
主要关键词