多机构系统(MAS)在数量的现实世界中广泛普遍且至关重要,在这些应用程序中,多个代理必须在共享环境中做出决定才能实现其目标。尽管无处不在,但在MAS中的智能决策代理的发展对他们的有效实施构成了一些公开挑战。本次调查研究了这些挑战,对研究游戏理论(GT)和机器学习(ML)的开创性概念(ML)进行了兴趣,并将它们与多方面增强学习(MARL)的最新进步联系起来,即MAS中数据驱动决策的研究。因此,这项调查的目的是在MARL的各个方面提供一个全面的观点,从而阐明了MARL应用中呈现的独特机会,同时强调了这种潜力带来的固有挑战。因此,我们希望我们的工作不仅可以通过分析当前的MARL景观来为该领域做出贡献,还可以通过洞察力来激励未来的方向,以深入了解GT和ML相关领域的概念。考虑到这一点,这项工作深入探讨了MARL及其相关领域的最新和过去的努力,并描述了提出的先前解决方案及其局限性以及其应用。
摘要 - 在复杂解决问题中的增强学习和进化算法(EAS)的局限性时,进化增强学习(EVORL)已成为协同解决方案。Evorl整合了EAS和增强学习,为培训智能代理提供了有希望的途径。该系统评价首先通过Evorl的技术背景导航,研究了EAS和强化学习算法之间的共生关系。然后,我们深入研究了EAS和强化学习所面临的挑战,探索了它们的相互作用和对Evorl功效的影响。此外,审查强调了解决与Evorl当前景观内有关可伸缩性,适应性,样本效率,对抗性鲁棒性,道德和公平性有关的开放性问题的必要性。最后,我们提出了Evorl的未来方向,强调了努力增强自我适应和自我改善,概括,可解释性,可解释性等的研究途径。作为研究人员和从业人员的综合资源,这项系统的审查提供了有关Evorl现状的见解,并提供了指南,以推动其在不断发展的人工智能景观中的能力。
[1] R. Sutton和A. Barto,《加固学习简介》,麻省理工学院出版社,1998年。[2] C. Szepesvari,《增强学习算法》,Morgan&Claypool Publishers,2010年。[3] C. Watkins,从延迟的奖励中学习,博士学位论文,剑桥大学,英格兰,1989年。[4] M. Wiering和M. Van Otterlo,加固学习:最新的ART,Springer,2014年。[5] M. Puterman,马尔可夫决策过程:离散随机动态编程,Wiley,1994年。[6] D. P. Bertsekas,动态编程和最佳控制,第一卷和II,雅典娜科学,2017年。[7] W. B. Powell,近似动态编程,Wiley,2011年。[8]选定的纸