层次强化学习和价值优化，用于挑战四倍的运动__

层次强化学习和价值优化，用于挑战四倍的运动

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

层次强化学习和价值优化，用于挑战四倍的运动

¥ 1.0

热度

摘要 - 我们提出了一个新颖的层次结构增强学习框架，用于在具有挑战性的地形上进行四足运动。我们的方法结合了两层层次结构，高级计划者（HLP）选择低级政策（LLP）的最佳目标。LLP是使用派演员批评的RL算法训练的，并将脚步放置为目标。HLP不需要任何额外的培训或环境样本，因为它是通过在线优化过程对LLP的价值函数进行的。我们通过将其与端到端的强化学习（RL）方法进行比较来证明该框架的好处，从而突出了其在各种不同地形阵列中碰撞较少的碰撞较少的能力的提高。索引术语 - 动物学，强化学习，优化

添加pdf代下载 VIP点击下载文件