灵活、目标导向的行为是人类生活的一个基本方面。基于自由能最小化原理,主动推理理论从计算神经科学的角度形式化了这种行为的产生。基于该理论,我们引入了一种输出概率、时间预测、模块化的人工神经网络架构,该架构处理感觉运动信息,推断其世界中与行为相关的方面,并调用高度灵活、目标导向的行为。我们表明,我们的架构经过端到端训练以最小化自由能的近似值,开发出可以解释为可供性图的潜在状态。也就是说,新出现的潜在状态根据本地环境发出信号,表明哪些动作会导致哪些效果。结合主动推理,我们表明可以调用灵活的、目标导向的行为,并结合新出现的可供性图。因此,我们的模拟代理可以灵活地穿越连续空间,避免与障碍物发生碰撞,并首选能够以高确定性到达目标的路径。此外,我们还表明,学习后的代理非常适合跨环境进行零样本泛化:在少数固定环境中训练代理后,这些环境中的障碍物和其他地形会影响其行为,它在程序生成的环境中的表现同样出色,这些环境包含不同数量的障碍物和不同位置的各种大小的地形。
主要关键词