Loading...
机构名称:
¥ 1.0

了解奖励和惩罚对于生存至关重要。经典研究表明,哺乳动物中脑多巴胺神经元环与强化学习算法的奖励预测误差之间存在令人印象深刻的对应关系,这表示实际奖励与预测平均奖励之间的差异。然而,不仅要学习潜在奖励的平均值,还要学习其完整分布,这可能是有益的。机器学习的最新进展揭示了一套生物学上可行的算法,用于根据经验重建这种奖励分布。在这里,我们回顾了这些算法的数学基础以及它们在神经生物学上实现的初步证据。最后,我们重点介绍了有关这些分布代码的电路计算和行为读出的未解决的问题。

大脑中的分布式强化学习

大脑中的分布式强化学习PDF文件第1页

大脑中的分布式强化学习PDF文件第2页

大脑中的分布式强化学习PDF文件第3页

大脑中的分布式强化学习PDF文件第4页

大脑中的分布式强化学习PDF文件第5页

相关文件推荐