Loading...
机构名称:
¥ 2.0

本文研究了任何时间竞争性马尔可夫决策过程(A-CMDP)的问题。现有在受约束的马尔可夫决策过程(CMDP)上的现有作品旨在优化预期的奖励,同时将预期成本限制在随机动态上,但是特定情节中的成本仍然不令人满意。相比之下,A-CMDP的目标是优化预期的奖励,同时保证任何情节的每轮有限成本与之前的政策。我们提出了一种新算法,称为任何时间竞争力的增强学习(ACRL),可以保证任何时间的成本限制。遗憾的分析表明,该政策渐近与任何时间竞争性约束下可获得的最佳奖励匹配。有关碳智能计算的应用实验,可以验证ACRL的奖励性能和成本约束保证。

随时随地竞争性强化学习与策略先验

随时随地竞争性强化学习与策略先验PDF文件第1页

随时随地竞争性强化学习与策略先验PDF文件第2页

随时随地竞争性强化学习与策略先验PDF文件第3页

随时随地竞争性强化学习与策略先验PDF文件第4页

随时随地竞争性强化学习与策略先验PDF文件第5页

相关文件推荐

2024 年
¥2.0
1900 年
¥3.0
2022 年
¥2.0
2021 年
¥2.0
2024 年
¥2.0
2023 年
¥1.0
2020 年
¥1.0
2022 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
1900 年
¥1.0
1900 年
¥2.0
2024 年
¥1.0
2024 年
¥5.0
2024 年
¥1.0
2022 年
¥1.0
2024 年
¥1.0
2024 年
¥6.0
2024 年
¥6.0
1900 年
¥1.0
2024 年
¥5.0
2025 年
¥1.0