suppodular增强学习___XiaoMi-AI 助力科研平台

suppodular增强学习

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

suppodular增强学习

¥ 2.0

热度

在加强学习（RL）中，国家的奖励通常被认为是增加的，并且按照马尔可夫的假设，它们独立于先前访问的状态。在许多重要的应用中，例如覆盖范围控制，实验设计和信息性路径计划，奖励自然会降低回报，即鉴于以前访问过的类似状态，其价值会降低。为了解决这个问题，我们提出了subsodular rl（s ub rl），该范式旨在优化通过捕获降低回报的subsodular Set函数模拟的更通用的，非添加的（和历史依赖的）奖励。不幸的是，即使在表格设置中，我们也表明，所产生的优化问题很难近似。是出于贪婪算法在经典次次优化方面的成功的动机，我们提出了S ub po，这是一种基于政策梯度的简单梯度al-gorithm，用于S ub rl，通过贪婪地最大化边际增长来处理非增长的重新奖励。的确，在基础马尔可夫决策过程（MDP）的一些假设下，s ub po恢复了子模块的最佳常数因子近似值。此外，我们得出了一种自然政策梯度方法，即使在大型州和行动空间中，也可以在本地优化S UB RL实例。我们通过将S UB PO应用于生物多样性监测，贝叶斯实验设计，信息路径计划和覆盖范围最大化等多种应用来展示我们的方法的多功能性。我们的结果证明了样本效率以及对高维状态行动空间的可伸缩性。

添加pdf代下载 VIP点击下载文件

suppodular增强学习

主要关键词

增加的多功能性梯度多功能通用的模拟的奖励信息路径 RL 增长马尔可夫模块覆盖范围空间的 ub 状态优化 po 依赖的国家的伸缩性降低增长的 UB rl 实验设计最大化模块的重要的 subsodular 路径近似值

suppodular增强学习PDF文件第1页

suppodular增强学习PDF文件第2页

suppodular增强学习PDF文件第3页

suppodular增强学习PDF文件第4页

suppodular增强学习PDF文件第5页

可下载资源数量

已经购买

下载数量：1

suppodular增强学习

suppodular增强学习

相关文件推荐

通过增强学习

增强学习

增强学习

增强学习

二元增强学习

通过增强学习

增强学习

逆增强学习

增强学习是您需要的

基于评级的增强学习

无模型增强学习

通过微小的增强学习

离线增强学习

增强学习中的评估

进化增强学习

技术增强学习

增强学习中的地平线概括

人工神经网络/增强学习

增强学习（Comp-579）

基于LLM的多代理增强学习

增强人类偏好的学习

通过反优化的离线增强学习

增强学习24-25

运动期间的增强学习

运动期间的增强学习

安全，强大的增强学习

因果增强概论学习

使用深厚的增强学习

训练扩散模型通过增强学习

扩散模型的大规模增强学习

XiaoMi-AI