强化学习 (RL) 的计算模型对我们理解人类行为和决策做出了重大贡献。然而,传统的 RL 模型通常采用线性方法来更新奖励预期,这可能会过度简化人类行为与奖励之间的微妙关系。为了应对这些挑战并探索强化学习的新模型,我们利用了一种使用方程发现算法的新型模型发现方法。这种方法目前主要用于物理学和生物学,它试图通过从一系列建议的线性和非线性函数中提出微分方程来捕获数据。使用这种新方法,我们能够识别一种新的 RL 模型,我们称之为二次 Q 加权模型。该模型表明,奖励预测误差服从非线性动力学并表现出负偏差,导致在期望值较低时奖励权重过低,而在期望值较高时奖励缺失权重过高。我们通过将我们的模型与 9 项已发表研究中使用的经典模型进行比较来测试其通用性。在已发布的九个数据集中的八个数据集中,我们的模型在预测准确度方面超越了传统模型,这不仅证明了其普遍性,还表明它有可能为人类学习的复杂性提供新的见解。这项工作展示了将新颖的行为任务与先进的计算方法相结合,作为揭示人类认知复杂模式的有效策略,标志着在开发可解释且广泛适用的计算模型方面迈出了重要一步。
主要关键词