学习特定于州的强化学习面具___XiaoMi-AI 助力科研平台

学习特定于州的强化学习面具

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

学习特定于州的强化学习面具

¥ 1.0

热度

摘要：有效但充分的探索仍然是强化学习（RL）的关键挑战，尤其是对于马尔可夫决策过程（MDP），具有巨大的动作空间。以前的方法通常涉及将原始动作空间投射到潜在空间或采用环境动作面具以减少动作的可能性。尽管如此，这些方法通常缺乏可解释性或依赖专家知识。在这项研究中，我们介绍了一种新颖的方法，用于自动降低具有离散动作空间的环境中的动作空间，同时保持可解释性。所提出的方法以双重目的学习了特定于州的面具：（1）消除对MDP最小影响的动作，以及（2）在MDP中具有相同行为后果的汇总行动。具体来说，我们介绍了一个新颖的概念，称为国家（BMA）的行动（BMA）来量化MDP内行动的行为后果，并设计一个专门的掩码模型以确保其二进制性质。至关重要的是，我们提出了一个实用的学习程序，用于培训掩模模型，利用任何RL策略收集的过渡数据。我们的方法旨在插入插件和适应所有RL策略，为了验证其有效性，将其集成到两种突出的RL算法中，即DQN和PPO。从迷宫，Atari和µRTS2获得的实验结果显示在RL学习过程中有很大的加速，并且引入方法促进了促进的性能改善。

添加pdf代下载 VIP点击下载文件

学习特定于州的强化学习面具

主要关键词

学习过程动作的有效性动作突出的仍然是面具空间 BMA 提出的可能性 RL 促进充分的解释性方法行动学习空间的二进制以前的巨大的策略收集的模型动作空间过渡数据实用的实验结果重要的专门的具有 MDP 用于

学习特定于州的强化学习面具PDF文件第1页

学习特定于州的强化学习面具PDF文件第2页

学习特定于州的强化学习面具PDF文件第3页

学习特定于州的强化学习面具PDF文件第4页

学习特定于州的强化学习面具PDF文件第5页

可下载资源数量

已经购买

下载数量：1

学习特定于州的强化学习面具

学习特定于州的强化学习面具

相关文件推荐

基于强化学习

强化学习：Q学习

强化学习（强化学习）

持续强化学习

与安全强化学习

深度强化学习

通过基于模型的强化学习

强化学习：DQN

推进强化学习

深度强化学习

强化学习基盘

基于表示的强化学习

使用强化学习

深度强化学习

强化学习简介

控制理论与强化学习

深度强化学习

多代理强化学习

密集的深强化学习

基于模型的强化学习

贝叶斯强化学习

使用强化学习

深度学习、强化学习和 Q 学习

什么时候可以观察到的强化学习不是可怕的？

强化学习 - 时间差异学习

强化学习课程：第二版

使用多机构强化学习

在非马克维亚环境中的强化学习

学习如何通过自我调整强化来学习

有弹性的受限强化学习

XiaoMi-AI