摘要 - 强化学习(RL)是顺序决策的有效工具,并且已经在许多具有挑战性的现实世界任务中实现了人类能力。作为多代理系统域中RL的扩展,多代理RL(MARL)不仅需要学习控制策略,而且还需要考虑与环境中与所有其他代理的相互作用,以及不同的系统组件之间的相互影响以及计算资源的分布。这增加了算法设计的复杂性,并对计算资源提出了更高的要求。同时,模拟器对于获取现实数据至关重要,这是RL的基本原理。在本文中,我们首先提出了一系列模拟器指标,并总结了现有基准的功能。第二,为了简化理解,我们回想起基础知识,然后综合了最近对MAL相关的自动驾驶和智能运输系统的高级研究。具体来说,我们检查了他们的环境建模,状态表示,感知单位和算法设计。最终讨论了公开挑战,前景和机遇。我们希望本文能够帮助研究人员整合MARL技术,并触发更有洞察力的想法,以实现智能和自主驾驶。
主要关键词