最近的许多研究都集中在生物学上可行的监督学习算法变体上。然而,运动皮层中没有老师来指导运动神经元,大脑中的学习取决于奖励和惩罚。我们展示了一种生物学上可行的强化学习方案,适用于具有任意层数的深度网络。网络通过选择输出层中的单元来选择动作,并使用反馈连接将信用分配给负责此动作的连续较低层中的单元。做出选择后,网络会得到强化,没有老师来纠正错误。我们展示了新的学习方案——注意力门控大脑传播 (BrainProp)——在数学上等同于错误反向传播,每次针对一个输出单元。我们展示了深度全连接、卷积和局部连接网络在经典和硬图像分类基准(MNIST、CIFAR10、CIFAR100 和 Tiny ImageNet)上的成功学习。 BrainProp 的准确度与标准误差反向传播相当,甚至优于最先进的生物启发式学习方案。此外,学习的反复试验性质与有限的额外训练时间有关,因此 BrainProp 的速度要慢 1-3.5 倍。因此,我们的研究结果为如何在大脑中实施深度学习提供了新的见解。
主要关键词