Loading...
机构名称:
¥ 4.0

安全加强学习(SRL)旨在优化最大程度地提高长期奖励的控制政策,同时遵守安全限制。SRL具有许多现实世界的应用,例如自动驾驶汽车,工业机器人技术和医疗保健。离线增强学习(RL)的最新进展 - 代理商在不与环境互动的情况下从静态数据集中学习政策 - 已成为一种有希望的方法来得出安全控制策略。但是,离线RL面临着重大挑战,例如数据中的协变量转移和离群值,这可能导致次优政策。同样,在线SRL通过实时环境互动得出安全的政策,与异常值进行斗争,并且通常依靠不切实际的规律性假设,从而限制了其实用性。本文通过提出一种混合访问线路方法来解决这些挑战。首先,离线学习指南在线探索的先验知识。然后,在在线学习过程中,我们用Student-T的流程(TP)替换流行的高斯流程(GP),以增强协变速器和异常值的鲁棒性。

图形摘要

图形摘要PDF文件第1页

图形摘要PDF文件第2页

图形摘要PDF文件第3页

图形摘要PDF文件第4页

图形摘要PDF文件第5页

相关文件推荐

2023 年
¥2.0
2023 年
¥2.0
2025 年
¥3.0
2023 年
¥1.0
2023 年
¥5.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥15.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥102.0
2022 年
¥1.0
2012 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥2.0
1900 年
¥1.0
2025 年
¥1.0
2024 年
¥3.0