平均无模型的强化学习 -___XiaoMi-AI 助力科研平台

平均无模型的强化学习 -

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

平均无模型的强化学习 -

¥ 1.0

热度

我们研究了无限 - 奖励马尔可夫决策过程（MDP）的无模型增强学习（RL）算法，这更适合涉及不持续操作的应用不分为情节。与情节/折扣的MDP相反，对于平均奖励设置，对无模型RL算法的理解理解相对不足。在本文中，我们考虑使用模拟器的在线设置和设置。与现有结果相比，我们开发了具有计算高效的无模型算法，以备受遗憾/样本的复杂性。在在线设置中，我们基于降低方差降低Q学习的乐观变体设计算法，UCB-AVG。我们表明UCB- AVG达到了遗憾的束缚e O（S 5 A 2 SP（H ∗）√

添加pdf代下载 VIP点击下载文件

平均无模型的强化学习 -

主要关键词

理解遗憾操作的情节持续操作模型降低操作模拟器学习的在线计算法开发 RL AVG 复杂性奖励学习 UCB 设置算法 MDP

平均无模型的强化学习 -PDF文件第1页

平均无模型的强化学习 -PDF文件第2页

可下载资源数量

已经购买

下载数量：1

平均无模型的强化学习 -

平均无模型的强化学习 -

相关文件推荐

平均奖励强化学习

基于强化学习

强化学习：Q学习

强化学习（强化学习）

深度强化学习

深度强化学习

通过基于模型的强化学习

强化学习：调查

持续强化学习

与安全强化学习

深度强化学习

通过基于模型的强化学习

强化学习：DQN

无模型增强学习

推进强化学习

深度强化学习

强化学习基盘

基于表示的强化学习

使用强化学习

深度强化学习

强化学习简介

控制理论与强化学习

深度强化学习

多代理强化学习

密集的深强化学习

基于模型的强化学习

贝叶斯强化学习

使用强化学习

深度学习、强化学习和 Q 学习

强化学习中的公平性：调查

XiaoMi-AI