点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
了解奖励和惩罚对于生存至关重要。经典研究表明,哺乳动物中脑多巴胺神经元环与强化学习算法的奖励预测误差之间存在令人印象深刻的对应关系,这表示实际奖励与预测平均奖励之间的差异。然而,不仅要学习潜在奖励的平均值,还要学习其完整分布,这可能是有益的。机器学习的最新进展揭示了一套生物学上可行的算法,用于根据经验重建这种奖励分布。在这里,我们回顾了这些算法的数学基础以及它们在神经生物学上实现的初步证据。最后,我们重点介绍了有关这些分布代码的电路计算和行为读出的未解决的问题。
主要关键词