#ijcai2025杰出论文:将Morl与限制螺栓结合在一起学习规范行为

作者提供的图像 - 使用双子座生成。对于我们许多人来说,人工智能(AI)已成为日常生活的一部分,而我们将人类角色分配给AI系统的速度没有显示出放缓的迹象。 AI系统是许多技术的关键成分,例如自动驾驶汽车,智能[…]

来源:Robohub

作者提供的图像 - 使用双子座生成。

对于我们许多人来说,人工智能(AI)已成为日常生活的一部分,而我们将人类角色分配给AI系统的速度没有显示出放慢速度的迹象。 AI系统是许多技术(例如,自动驾驶汽车,智能城市规划,数字助手)的关键要素,遍布越来越多的领域。许多这些技术的核心是自主代理 - 旨在代表人类行动并在没有直接监督的情况下做出决定的系统。为了在现实世界中有效采取行动,尽管可能无法预测的环境条件,这些代理必须能够执行各种任务,这通常需要某种形式的机器学习(ML)来实现适应性行为。

机器学习

强化学习(RL)[6]是一种强大的ML技术,可以在随机环境中实现最佳行为。 RL代理通过与环境进行互动来学习:对于他们采取的每一个行动,他们都会获得特定于上下文的奖励或处罚。随着时间的流逝,他们学习了在整个运行时最大化预期奖励的行为。

增强学习 安全RL (LTL)

但是,安全并不是一切。的确,随着基于RL的代理人越来越多地取代或与人类紧密相互作用,出现了一个新的挑战:确保他们的行为也符合结构人类社会的社会,法律和道德规范,这些规范通常超出了保证安全性的简单约束。例如,自动驾驶汽车可能会完全遵循安全限制(例如避免发生冲突),但仍采用行为,尽管在技术上安全,但违反了社会规范,在路上怪异或粗鲁,这可能会导致其他(人类)驱动因素以不安全的方式做出反应。

社会,法律和道德规范
  • 始终在您的车辆和车辆前后的车辆之间保持10米。
  • 放慢速度