Loading...
机构名称:
¥ 3.0

强化学习(RL)在解决相对复杂的任务方面取得了巨大的成功,但是在现实世界中,RL系统的部署构成了与安全性和鲁棒性有关的重大挑战。本文旨在鉴定并进一步了解这些挑战,以彻底探索安全,强大的RL景观的主要维度,包括算法,道德和实际考虑。我们对方法论和开放问题进行了全面审查,这些问题总结了近年来解决与RL应用程序相关的固有风险的努力。在讨论和提出了针对安全和鲁棒的RL的定义之后,本文将现有的研究作品归类为不同的算法方法,从而增强了RL代理的安全性和鲁棒性。我们研究了不确定性估计,优化方法,探索 - 探索折衷和对抗性训练等技术。环境因素,包括SIM到实际转移和域的适应性,也经过审查,以了解RL系统如何适应各种和动态的环境。人类的参与是分析的组成部分,承认了人类在这种情况下可以扮演的广泛角色。重要的是,为了帮助从业者浏览安全和强大的RL实施的复杂性,本文介绍了从合成的文献中得出的实用清单。清单包括算法设计,培训环境注意事项和道德准则的关键方面。它将作为开发人员和政策制定者的资源,以确保在许多应用程序域中负责RL系统的负​​责部署。

安全,强大的增强学习

安全,强大的增强学习PDF文件第1页

安全,强大的增强学习PDF文件第2页

安全,强大的增强学习PDF文件第3页

安全,强大的增强学习PDF文件第4页

安全,强大的增强学习PDF文件第5页