Loading...
机构名称:
¥ 3.0

在开放世界中运行的自主系统通常使用其环境不完整的模型。模型不完整是不可避免的,这是由于精确模型规范和有关开放世界环境的数据收集的实际限制。由于模型的有限性,部署时可能会产生负面影响(NSE)。负面效应是对环境对代理作用的不良,未建模的影响。nses在设计时识别出来的挑战性,并且可能影响系统的可靠性,可用性和安全性。我们提出了两种互补的方法来减轻NSE通过:(1)从反馈中学习,以及(2)环境塑造。解决方案通过不同的假设和代理职责来实现目标设置。在从反馈中学习时,代理商将学习与NSE相关的惩罚功能。我们研究了不同反馈机制的效率,包括人类的反馈和自主探索。该问题被称为多目标马尔可夫决策过程,以便优化代理的指定任务优先于减轻NSE。Slack参数表示允许的最大偏差与代理商任务的最佳预期奖励,以减轻NSE。在环境塑造中,我们研究了人类如何帮助代理人,除了提供反馈之外,并利用其更广泛的知识范围来减轻NSE的影响。我们将问题提出为与脱钩目标的人类合作。代理优化其分配的任务,并在其操作过程中可能会产生NSE。人类通过对环境进行适度的重新配置来协助代理,以减轻NSE的影响,而不会影响代理人完成其分配任务的能力。我们提出了一种用于塑造和分析其特性的算法。经验评估证明了在不同环境中缓解NSE的不同方法的贸易。

避免自主系统在...

避免自主系统在...PDF文件第1页

避免自主系统在...PDF文件第2页

避免自主系统在...PDF文件第3页

避免自主系统在...PDF文件第4页

避免自主系统在...PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
2023 年
¥19.0