动态强化学习揭示了奖励学习过程中战略的时间依赖性转变__

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变

可下载资源数量

已经购买

下载数量：1

单价	0 3.0
Coupon	100% 0%
Total	0 3.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变

¥ 3.0

热度

已经假设抽象的不同大脑系统来处理8个竞争以产生行为的“专家”。在增强学习中，两个通用过程，一个无模型的9（MF）和一个基于模型的（MB），通常被建模为代理（MOA）的混合物（MOA）和10个假设，以捕获自动性与审议之间的差异。但是，静态MOA无法捕获11个策略的变化。为了研究这种动态，我们提出了12个代理的隐藏马尔可夫模型（MOA-hmm），同时从一组代理中学习了13个动作值，以及基本“隐藏”的时间动态，即随着时间的推移，代理贡献中14个捕获转移。将此模型应用于大鼠的多步，15个奖励指导的任务，揭示了会议内策略的进展：从最初的16 MB探索到MB剥削，并最终降低了参与度。被推论的状态17预测任务过程中响应时间和OFC神经编码的变化，这表明18个状态正在捕获动力学的实际转移。19

添加pdf代下载 VIP点击下载文件

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变

主要关键词

MOA 模型的隐藏编码的自动性响应时间策略状态策略的动力学混合物转移模型任务过程指导的变化假设动态最初的任务 MB 时间的力学的代理过程代理的动力学的时间动作值捕获

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变PDF文件第1页

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变PDF文件第2页

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变PDF文件第3页

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变PDF文件第4页

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变PDF文件第5页

可下载资源数量

已经购买

下载数量：1

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变

相关文件推荐

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变

动态强化学习揭示了奖励学习过程中战略的时间依赖性转变

强化学习 - 时间差异学习

弹性时间步长的强化学习

动态缩放对称性和时间依赖性标量场的渐近量子相关性

基于强化学习

强化学习：Q学习

强化学习（强化学习）

数据驱动方程发现揭示人类的非线性强化学习

深度强化学习，实现能量和时间优化......

深层建模揭示了神经回路机理中动态依赖性的不向导

深度学习揭示帕金森病症状中关键脑区的动态作用

与安全强化学习

深度强化学习

通过基于模型的强化学习

强化学习：DQN

推进强化学习

深度强化学习

BRAF的时间依赖性

强化学习基盘

基于表示的强化学习

使用强化学习

深度强化学习

强化学习简介

控制理论与强化学习

深度强化学习

多代理强化学习

密集的深强化学习

基于模型的强化学习

XiaoMi-AI