主动推理是理解生物智能的贝叶斯框架。其基本理论将感知和行动归结为一个单一的命令:最小化自由能。然而,尽管它在解释智能方面具有理论效用,但计算实现却仅限于低维和理想化的情况。在本文中,我们提出了一种神经架构,用于构建在复杂、连续状态空间中运行的深度主动推理代理,使用多种形式的蒙特卡罗 (MC) 采样。为此,我们介绍了一些对主动推理来说新颖的技术。这些包括:i) 通过 MC 树搜索选择自由能量最优策略,ii) 通过前馈“习惯性”网络近似该最优策略分布,iii) 使用 MC 丢失预测未来参数信念更新,最后,iv) 优化状态转换精度(一种高端注意力形式)。我们的方法使代理能够有效地学习环境动态,同时与基于奖励的对应者相比保持任务性能。我们在基于 dSprites 数据集的新玩具环境中说明了这一点,并证明主动推理代理会自动创建适合建模状态转换的解开表示。在更复杂的 Animal-AI 环境中,我们的代理(使用相同的神经架构)能够模拟未来的状态转换和动作(即计划),以显示奖励导向的导航 - 尽管暂时停止了视觉输入。这些结果表明,配备 MC 方法的深度主动推理提供了一个灵活的框架来开发受生物启发的智能代理,可应用于机器学习和认知科学。
根据自由能原理,所有有知觉的生物都力求将意外或信息论量(即变分自由能)降到最低。因此,社会心理“压力”可以重新定义为“预期自由能增强”的状态,即“预期意外”或“不确定性”的状态。经历压力的个体主要试图借助所谓的不确定性解决程序 (URP) 来减少不确定性或预期自由能。URP 由三个子程序组成:首先,诱发唤醒状态,增加大脑信息传输和处理,以尽快减少不确定性。其次,这些额外的计算会消耗大脑从身体中获取的额外能量。第三,该程序控制学习哪些压力减轻措施以备将来使用,哪些压力减轻措施不学习。当 URP 成功减少不确定性时,我们将该事件称为“良好”压力。如果 URP 无法充分减少不确定性,则会导致压力习惯化或长期毒性压力。压力习惯化通过平缓/扩大个人目标信念来减少不确定性,从而使以前被认为无法维持的结果变得可以接受。习惯化的人会经历所谓的“可忍受”压力。根据自私大脑理论及其支持实验证据,我们表明,习惯化的人缺乏压力唤醒,因此平均大脑能量消耗减少,往往会发展出肥胖的 2 型糖尿病表型。对于那些习惯化不是自由能量最优解决方案的人来说,他们不会通过改变目标偏好来减少不确定性,只会承受“有毒”压力。有毒压力会导致反复或持续的唤醒状态,从而增加平均大脑能量消耗,进而促进瘦弱 2 型糖尿病表型的发展。总之,我们将压力的心理概念锚定在自由能量原理定义的信息论不确定性概念中。此外,我们详细介绍了不确定性减少背后的神经生物学机制,并说明了不确定性如何导致心身疾病。