随时随地竞争性强化学习与策略先验__

随时随地竞争性强化学习与策略先验

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

随时随地竞争性强化学习与策略先验

¥ 2.0

热度

本文研究了任何时间竞争性马尔可夫决策过程（A-CMDP）的问题。现有在受约束的马尔可夫决策过程（CMDP）上的现有作品旨在优化预期的奖励，同时将预期成本限制在随机动态上，但是特定情节中的成本仍然不令人满意。相比之下，A-CMDP的目标是优化预期的奖励，同时保证任何情节的每轮有限成本与之前的政策。我们提出了一种新算法，称为任何时间竞争力的增强学习（ACRL），可以保证任何时间的成本限制。遗憾的分析表明，该政策渐近与任何时间竞争性约束下可获得的最佳奖励匹配。有关碳智能计算的应用实验，可以验证ACRL的奖励性能和成本约束保证。

添加pdf代下载 VIP点击下载文件

随时随地竞争性强化学习与策略先验

主要关键词

CMDP 时间的马尔可夫受约束的情节成本可获得的竞争性时间成本约束约束计算的受约束过程奖励优化决策动态保证竞争力预期预期的 ACRL

随时随地竞争性强化学习与策略先验PDF文件第1页

随时随地竞争性强化学习与策略先验PDF文件第2页

随时随地竞争性强化学习与策略先验PDF文件第3页

随时随地竞争性强化学习与策略先验PDF文件第4页

随时随地竞争性强化学习与策略先验PDF文件第5页

可下载资源数量

已经购买

下载数量：1

随时随地竞争性强化学习与策略先验

随时随地竞争性强化学习与策略先验

相关文件推荐

基于强化学习

强化学习：Q学习

强化学习（强化学习）

学习策略

谁学习策略

学习策略

学习策略

学习策略

学习策略

学习策略

强化学习条目检查策略...

与安全强化学习

深度强化学习

通过基于模型的强化学习

强化学习：DQN

深度强化学习找到了涡流的新策略...

推进强化学习

深度强化学习

强化学习基盘

主动学习策略

基于表示的强化学习

使用强化学习

深度强化学习

强化学习简介

控制理论与强化学习

深度强化学习

多代理强化学习

密集的深强化学习

基于模型的强化学习

贝叶斯强化学习

XiaoMi-AI