有弹性的受限强化学习___XiaoMi-AI 助力科研平台

有弹性的受限强化学习

可下载资源数量

已经购买

下载数量：1

单价	0 4.0
Coupon	100% 0%
Total	0 4.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

有弹性的受限强化学习

¥ 4.0

热度

我们研究一类受约束的加强学习（RL）问题，其中在训练之前未确定多个结合规格。由于奖励最大化目标和约束满意度之间的不可罚款，确定适当的约束规格是一项挑战，这在决策制定方面无处不在。为了解决此问题，我们提出了一种新的约束RL方法，以搜索政策和约束规格。这种方法的特征是根据学习意义中介绍的重新设备成本放松约束的适应。由于此特征模仿了生态系统如何通过改变操作来适应破坏，因此我们的方法被称为弹性约束RL。Specifically, we provide a set of sufficient conditions that balance the con- straint satisfaction and the reward maximiza- tion in notion of resilient equilibrium, propose a tractable formulation of resilient constrained policy optimization that takes this equilib- rium as an optimal solution, and advocate two resilient constrained policy search algorithms with non-asymptotic convergence guarantees on the optimality gap and constraint satis-派系。此外，我们证明了我们方法在计算实验中的优点和有效性。

添加pdf代下载 VIP点击下载文件

有弹性的受限强化学习

主要关键词

介绍学习适当的适应特征优点 Specifically 受约束生态系统约束 RL 问题 constrained policy 成本根据有效性计算实验规格受约束的最大化 resilient 决策制定方法

有弹性的受限强化学习PDF文件第1页

有弹性的受限强化学习PDF文件第2页

有弹性的受限强化学习PDF文件第3页

有弹性的受限强化学习PDF文件第4页

有弹性的受限强化学习PDF文件第5页

可下载资源数量

已经购买

下载数量：1

有弹性的受限强化学习

有弹性的受限强化学习

相关文件推荐

基于强化学习

强化学习：Q学习

强化学习（强化学习）

强化学习：调查

持续强化学习

与安全强化学习

深度强化学习

通过基于模型的强化学习

强化学习：DQN

推进强化学习

深度强化学习

强化学习基盘

基于表示的强化学习

使用强化学习

深度强化学习

强化学习简介

控制理论与强化学习

深度强化学习

多代理强化学习

密集的深强化学习

基于模型的强化学习

贝叶斯强化学习

使用强化学习

深度学习、强化学习和 Q 学习

平均奖励强化学习

学习特定于州的强化学习面具

从单人到联合强化学习

使用深度强化学习

什么时候可以观察到的强化学习不是可怕的？

强化学习 - 时间差异学习

XiaoMi-AI