全球代理商的全球决策是全球代理人做出影响大量当地代理的决策,是一个经典问题,已经以多种形式进行了广泛研究(Foster等,2022; Qin等,2023; Foster等,2023),并且可以在许多应用中找到。网络优化,电源管理和电动汽车充电(Kim&Giannakis,2017; Zhang&Pavone,2016; Molzahn等,2017)。但是,一个关键的挑战是基础系统的不确定性质,这可能很难准确地建模。强化学习(RL)在各种应用程序中都表现出色,例如GO的游戏(Silver等,2016),自主驾驶(Kiran等,2022)和Robotics(Kober等,2013)。最近,RL已成为学习控制未知系统的强大工具(Ghai等,2023; Lin等,2023; 2024a; b),因此,对于多代理系统的决策,包括本地代理商的全球决策问题,具有巨大的决策潜力。
主要关键词