动机:➢在模拟的机器学习领域与几个代理商的模拟区域中进行了不同的工作。自主系统合作和竞争行为的算法以及改进模型的培训。➢不同主题的汇编,可以在初步讨论中进行精确选择。
多智能体强化学习 (MARL) 是一种广泛使用的人工智能 (AI) 技术。然而,当前的研究和应用需要解决其可扩展性、非平稳性和可信度问题。本文旨在回顾方法和应用,并指出未来十年的研究趋势和远景。首先,本文总结了 MARL 的基本方法和应用场景。其次,本文概述了相应的研究方法及其在 MARL 实际应用中需要解决的安全性、鲁棒性、泛化和道德约束方面的局限性。特别是,我们认为可信的 MARL 将成为未来十年的热门研究课题。此外,我们认为考虑人机交互对于 MARL 在各个社会中的实际应用至关重要。因此,本文还分析了 MARL 应用于人机交互时面临的挑战。
摘要 —本文介绍了一种新颖的多智能体强化学习 (MARL) 框架,以使用无人机 (UAV) 群作为传感雷达来增强综合传感和通信 (ISAC) 网络。通过将无人机的定位和轨迹优化构建为部分可观测马尔可夫决策过程,我们开发了一种 MARL 方法,该方法利用集中训练和分散执行来最大化整体传感性能。具体来说,我们实施了一种分散的合作 MARL 策略,使无人机能够制定有效的通信协议,从而增强其环境意识和运营效率。此外,我们通过传输功率自适应技术增强了 MARL 解决方案,以减轻通信无人机之间的干扰并优化通信协议效率。此外,还结合了传输功率自适应技术来减轻干扰并优化学习到的通信协议效率。尽管复杂性增加,但我们的解决方案在各种场景中都表现出强大的性能和适应性,为未来的 ISAC 网络提供了可扩展且经济高效的增强功能。索引术语 — 多智能体强化学习 (MARL)、综合传感和通信 (ISAC)、无人机 (UAV)。
评估深层增强学习(MARL)算法在训练和敏感性对其他药物行为的训练和敏感性方面变得复杂。,我们通过将每个MARL算法作为元策略构建元游戏评估框架,并反复对来自不同随机种子产生的元策略组合进行反复对正常形式的经验游戏进行采样。每个经验游戏都捕获了种子跨种子的自我玩法和交叉游戏。这些经验游戏为在各种游戏分析统计中构建采样分布的基础。我们使用这种方法来评估一类谈判游戏的最先进的MARL算法。从有关独立收益,社会福利和经验最佳响应图的统计数据中,我们发现了自我播放,基于人群,免费模型和基于模型的MARL方法之间的战略关系。我们还研究运行时搜索作为元战略运营商的效果,并通过元游戏分析查找元构造的搜索版本通常会提高性能。
多机构系统(MAS)在数量的现实世界中广泛普遍且至关重要,在这些应用程序中,多个代理必须在共享环境中做出决定才能实现其目标。尽管无处不在,但在MAS中的智能决策代理的发展对他们的有效实施构成了一些公开挑战。本次调查研究了这些挑战,对研究游戏理论(GT)和机器学习(ML)的开创性概念(ML)进行了兴趣,并将它们与多方面增强学习(MARL)的最新进步联系起来,即MAS中数据驱动决策的研究。因此,这项调查的目的是在MARL的各个方面提供一个全面的观点,从而阐明了MARL应用中呈现的独特机会,同时强调了这种潜力带来的固有挑战。因此,我们希望我们的工作不仅可以通过分析当前的MARL景观来为该领域做出贡献,还可以通过洞察力来激励未来的方向,以深入了解GT和ML相关领域的概念。考虑到这一点,这项工作深入探讨了MARL及其相关领域的最新和过去的努力,并描述了提出的先前解决方案及其局限性以及其应用。
自主代理人与人的互动越来越集中于适应其不断变化的偏好,以改善现实世界任务中的援助。有效的代理必须学会准确地推断出通常隐藏的人类目标,才能很好地进行协作。但是,现有的多代理增强学习(MARL)环境缺乏严格评估这些代理人学习能力所需的必要属性。为此,我们介绍了Color G Rid,这是一种具有可定制的非平稳性,不对称性和奖励结构的新型MARL环境。我们调查了独立的近端政策选择(IPPO),一种最先进的(SOTA)MARL算法,在C olor G ride和通过广泛的消融中找到,尤其是在“人类和“人类较低”的“领导者”代理之间,尤其是在“领导者”中同时进行非平稳和不对称目标的助理代理人,由color color c olor is i i i i i i i i i i i i i i i i i i Is i i是。为了支持未来的MARL算法,我们在https://github.com/andreyrisukhin/colorgrid上发布了环境代码,模型检查点和轨迹可视化。
多代理增强学习(MARL)的领域目前正面临可重复性危机。虽然已经提出了用于解决该问题的标准化报告解决方案,但我们仍然缺乏一个实现标准化和可重复性的基准测试工具,同时利用尖端的增强学习(RL)实现。在本文中,我们介绍了台式,这是第一个MARL培训库创建的,目的是在不同的算法,模型和环境中启用标准化的基准测试。Benchmarl使用Torchrl作为后端,授予其高性能,并保持最新的信息,同时解决Marl Pytorch用户的广泛社区。其设计启用系统的配置和报告,从而使用户可以通过简单的单行输入创建和运行com-plex基准测试。Benchmarl在github上开源:https://github.com/facebookresearch/benchmarl。
多机构增强学习(MARL)的领域目前正面临生产性危机。虽然已经提出了用于解决该问题的标准化报告解决方案,但我们仍然缺乏一个实现标准化和可重复性的基准测试工具,同时利用了尖端的加固学习(RL)实现。在本文中,我们介绍了台式,这是创建的第一个MARL培训库,目的是在不同的al-gorithm,模型和环境中启用标准化的基准测试。Benchmarl使用Torchrl作为后端,授予其高性能并维护最先进的实现,同时解决Marl Pytorch用户的广泛社区。其设计启用系统配置和报告,从而使用户可以通过简单的单行输入创建和运行复杂的基准测试。Benchmarl在github上开源:https://github.com/facebookresearch/benchmarl。
摘要:大规模合作对于实现人类可持续的未来至关重要。然而,实现集体,合作的行为 - 在复杂环境中聪明的参与者共同改善了他们的福祉 - 认为这是鲜为人知的。复杂的系统科学(CSS)对集体现象,合作的演变以及可以维持两者兼而有之的机构提供了丰富的理解。然而,该领域的许多理论都无法完全考虑个人级别的复杂性和环境环境,这是出于障碍性的目的,并且因为尚不清楚如何严格地做到这一点。这些元素在多种强化学习(MARL)中被很好地捕获,该学习最近着重于合作(人工)智能。但是,典型的MARL模拟在计算上可能是昂贵的,并且可以解释挑战。在本演讲中,我建议桥接CSS和MARL提供新的方向。通过研究集体增强学习的非线性动力学,我们可以更好地理解在复杂的环境中,个人决策如何成为可持续未来的集体行动。
kale-ab是爱丁堡大学自治代理研究小组的博士候选人。他的作品旨在使多机构增强学习(MARL)算法更强大和可靠,可用于开放式系统中的现实合作。博士学位之前,他获得了4。5年的机器学习经验,包括在Instadeep担任研究工程师2。5年,以及在软件工程方面的3年经验。Kale-Ab还致力于支持非洲有影响力的技术项目,并促进机器学习社区内的多样性。研究兴趣:MARL,强大的开放式系统,现实世界中的可扩展协作。