通过恢复策略___XiaoMi-AI 助力科研平台

通过恢复策略

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过恢复策略

¥ 1.0

热度

摘要 - 离线目标条件的强化学习（GCRL）的目的是通过脱机数据集的稀疏重新解决目标解决目标任务。虽然先前的工作已经阐明了代理商学习近乎最佳策略的各种方法，但在处理复杂环境（例如安全限制）中处理各种约束时，这些方法会遇到限制。其中一些方法优先考虑目标，而无需考虑安全性，而其他方法则以牺牲培训效率为代价而过度关注安全性。在本文中，我们研究了限制离线GCRL的问题，并提出了一种称为基于恢复的监督学习（RBSL）的新方法，以完成具有各种目标的安全至关重要的任务。为了评估方法性能，我们基于具有随机定位的障碍物的机器人提取环境建立基准测试，并使用专家或随机策略来生成离线数据集。我们将RBSL与三种离线GCRL算法和一种离线安全RL算法进行比较。结果，我们的方法在很大程度上可以执行现有的最新方法。此外，我们通过将RBSL部署在真正的熊猫机械手上来验证RBSL的实用性和有效性。代码可在https://github.com/sunlighted/rbsl.git上找到。

添加pdf代下载 VIP点击下载文件

通过恢复策略

主要关键词

机械手目标实用性障碍物恢复的目标任务定位的新方法环境随机 RBSL 算法先前的数据集离线策略重要的有效性熊猫目标的 GCRL 代理商限制方法验证真正的学习安全性现有的机器人安全策略的

通过恢复策略PDF文件第1页

通过恢复策略PDF文件第2页

通过恢复策略PDF文件第3页

通过恢复策略PDF文件第4页

通过恢复策略PDF文件第5页

可下载资源数量

已经购买

下载数量：1

通过恢复策略

通过恢复策略

相关文件推荐

旅游恢复策略

Kea 恢复策略 - Kea 恢复策略

恢复策略手册

策略

策略+

我们的策略

策略4

我们的策略

策略

策略

策略

策略

策略

我们的策略

策略。

大乍得策略

策略

策略

策略

策略

恢复之路

策略

我们的策略

我们的策略

策略

策略

策略

策略

策略

策略

XiaoMi-AI