注意力门控大脑传播：大脑如何实现基于奖励的错误反向传播__

注意力门控大脑传播：大脑如何实现基于奖励的错误反向传播

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

注意力门控大脑传播：大脑如何实现基于奖励的错误反向传播

¥ 1.0

热度

最近的许多研究都集中在生物学上可行的监督学习算法变体上。然而，运动皮层中没有老师来指导运动神经元，大脑中的学习取决于奖励和惩罚。我们展示了一种生物学上可行的强化学习方案，适用于具有任意层数的深度网络。网络通过选择输出层中的单元来选择动作，并使用反馈连接将信用分配给负责此动作的连续较低层中的单元。做出选择后，网络会得到强化，没有老师来纠正错误。我们展示了新的学习方案——注意力门控大脑传播 (BrainProp)——在数学上等同于错误反向传播，每次针对一个输出单元。我们展示了深度全连接、卷积和局部连接网络在经典和硬图像分类基准（MNIST、CIFAR10、CIFAR100 和 Tiny ImageNet）上的成功学习。 BrainProp 的准确度与标准误差反向传播相当，甚至优于最先进的生物启发式学习方案。此外，学习的反复试验性质与有限的额外训练时间有关，因此 BrainProp 的速度要慢 1-3.5 倍。因此，我们的研究结果为如何在大脑中实施深度学习提供了新的见解。

添加pdf代下载 VIP点击下载文件