Loading...
机构名称:
¥ 2.0

强化学习是预测和最大化长期回报的问题。计算机科学家认识到,可以通过根据预测误差(观察到的回报和预期回报之间的差异)更新预测和行动策略来解决此问题。值得注意的是,基底神经节似乎使用了类似的策略,其中多巴胺提供预测误差来更新纹状体中的预测和行动策略。我们回顾了自然和人工智能的这种融合是如何得到阐述和挑战的,重点关注将尖端机器学习算法与实验观察联系起来的最新发展。一个反复出现的主题,无论是从理论还是从经验上讲,都是简单的错误驱动学习算法在配备适当丰富(并且可能分布)的状态表示时具有惊人的力量。这些表征反过来又被多巴胺能预测误差所修改,形成了一个良性循环,学习算法可以增强其解决更复杂任务的能力。

利用多巴胺进行强化学习:自然与人工智能的融合

利用多巴胺进行强化学习:自然与人工智能的融合PDF文件第1页

利用多巴胺进行强化学习:自然与人工智能的融合PDF文件第2页

利用多巴胺进行强化学习:自然与人工智能的融合PDF文件第3页

利用多巴胺进行强化学习:自然与人工智能的融合PDF文件第4页

利用多巴胺进行强化学习:自然与人工智能的融合PDF文件第5页

相关文件推荐