摘要 - 离线目标条件的强化学习(GCRL)的目的是通过脱机数据集的稀疏重新解决目标解决目标任务。虽然先前的工作已经阐明了代理商学习近乎最佳策略的各种方法,但在处理复杂环境(例如安全限制)中处理各种约束时,这些方法会遇到限制。其中一些方法优先考虑目标,而无需考虑安全性,而其他方法则以牺牲培训效率为代价而过度关注安全性。在本文中,我们研究了限制离线GCRL的问题,并提出了一种称为基于恢复的监督学习(RBSL)的新方法,以完成具有各种目标的安全至关重要的任务。为了评估方法性能,我们基于具有随机定位的障碍物的机器人提取环境建立基准测试,并使用专家或随机策略来生成离线数据集。我们将RBSL与三种离线GCRL算法和一种离线安全RL算法进行比较。结果,我们的方法在很大程度上可以执行现有的最新方法。此外,我们通过将RBSL部署在真正的熊猫机械手上来验证RBSL的实用性和有效性。代码可在https://github.com/sunlighted/rbsl.git上找到。
FTSE Russell® 是 FTSE、Russell、FTSE Canada、FTSE FI、FTSE FI Europe、WOFE、RBSL、RL 和 BR 的贸易名称。“FTSE®”“Russell®”、“FTSE Russell®”、“FTSE4Good®”、“ICB®”、“Refinitiv”、“Beyond Ratings®”、“WMRTM”、“FRTM”以及本文使用的所有其他商标和服务标志(无论是否注册)均为 LSEG 适用成员或其各自许可方拥有或许可的商标和/或服务标志,由 FTSE、Russell、FTSE Canada、FTSE FI、FTSE FI Europe、WOFE、RBSL、RL 或 BR 拥有或经许可使用。富时国际有限公司由英国金融行为监管局授权并作为基准管理者进行监管。 Refinitiv Benchmark Services (UK) Limited 是英国金融行为监管局授权和监管的基准管理者。
FTSE Russell® 是 FTSE、Russell、FTSE Canada、FTSE FI、FTSE FI Europe、WOFE、RBSL、RL 和 BR 的贸易名称。“FTSE®”“Russell®”、“FTSE Russell®”、“FTSE4Good®”、“ICB®”、“Refinitiv”、“Beyond Ratings®”、“WMRTM”、“FRTM”以及本文使用的所有其他商标和服务标志(无论是否注册)均为 LSEG 适用成员或其各自许可方拥有或许可的商标和/或服务标志,由 FTSE、Russell、FTSE Canada、FTSE FI、FTSE FI Europe、WOFE、RBSL、RL 或 BR 拥有或经许可使用。富时国际有限公司由英国金融行为监管局授权并作为基准管理者进行监管。 Refinitiv Benchmark Services (UK) Limited 是英国金融行为监管局授权和监管的基准管理者。
FTSE Russell ® 是 FTSE、Russell、FTSE Canada、FTSE FI、FTSE FI Europe、WOFE、RBSL、RL 和 BR 的贸易名称。“FTSE ®”、“Russell ®”、“FTSE Russell ®”、“FTSE4Good ®”、“ICB ®”、“Refinitiv”、“Beyond Ratings ®”、“WMR™”、“FR™”以及本文使用的所有其他商标和服务标志(无论是否注册)均为 LSEG 适用成员或其各自许可方拥有或许可的商标和/或服务标志,由 FTSE、Russell、FTSE Canada、FTSE FI、FTSE FI Europe、WOFE、RBSL、RL 或 BR 拥有或经许可使用。富时国际有限公司由英国金融行为监管局授权并作为基准管理者进行监管。 Refinitiv Benchmark Services (UK) Limited 是英国金融行为监管局授权和监管的基准管理者。
ftseRussell®是FTSE,Russell,Ftse Canada,FTSE FI,FTSE FI Europe,WOFE,RBSL,RL和BR的交易名称。“FTSE ® ”, “Russell ® ”, “FTSE Russell ® ”, “FTSE4Good ® ”, “ICB ® ”, “Refinitiv”, “Beyond Ratings ® ”, “WMR™”, “FR™” and all other trademarks and service marks used herein (whether registered or unregistered) are trademarks and/or service marks owned or licensed by the FTSE,Russell,FTSE加拿大,FTSE FI,FTSE FI欧洲,WOFE,RBSL,RL或BR由LSEG或其各自的许可人或其各自的许可人及其各自的许可人。FTSE International Limited被金融行为管理局授权和监管,为基准管理员。重新固定基准服务有限公司(UK)有限公司由金融行为当局授权和监管为基准管理员。
ACRONYMS: EGLE – Michigan Department of Environment, Great Lakes, and Energy FAVs – Part 31 Water Quality Standards Aquatic Life Final Acute Values FESL – Flammability and Explosivity Level GSI – Groundwater Surface Water Interface LEL – Lower Explosive Limit MIOSHA – Michigan Occupational Safety and Health Act MIOSHA PELs – Permissible Exposure Limits MIOSHA STELs – Short Term Exposure Limits NAPL – Non-aqueous相位液体 - 秒。21303(a)第213部分 - 第213部分,泄漏的地下储罐,NREPA,1994 PA 451,修订的PSIC - 颗粒土壤吸入标准RBCA - 基于ASTM风险的纠正措施 - 秒。21303(g))RBSL - 基于风险的筛查水平 - 秒。21303(k)RRD - 修复和重建部SSTL - 特定于现场的目标水平 - 秒。21303(O)VICC-挥发为室内吸入标准VSIC - 挥发性土壤吸入标准