摘要:我们开发了一个用于正面自主赛车的分层控制器。我们首先引入了具有现实安全和公平规则的赛车游戏的表述。高级计划者将原始公式近似为具有简化状态,控制和动态的离散游戏,以轻松编码复杂的安全性和公平性规则并计算一系列目标路点。低级控制器将产生的路点作为参考轨迹,并通过使用简单的目标和约束来求解替代近似公式来计算高分辨率控制输入。我们考虑了低级计划者的两种方法,它们构建了两个分层控制器。一种方法使用多代理增强学习(MARL),另一种方法求解线性季度NASH游戏(LQNG)来产生控制输入。将控制器与三个基线进行比较:端到端MARL控制器,跟踪固定赛车线的MARL控制器以及跟踪固定赛车线的LQNG控制器。定量结果表明,所提出的层次结构方法优于其各自的基线方法,而在头部竞赛中获胜和遵守规则。使用MARL进行低级控制的分层控制器通过赢得超过90%的头对头种族并更始终如一地遵守复杂的赛车规则,从而超过了所有其他方法。定性地,我们观察到的拟议的控制器模仿了专家驾驶员所采取的措施,例如屏蔽/阻塞,超车和长期计划,以延迟优势。我们表明,即使受到复杂的规则和约束挑战,游戏理论推理的层次结构计划也会产生竞争行为。
摘要 - 无细胞(CF)大量多输入多重输出(MMIMO)是一种使用多个分布式接入点(APS)实现高光谱效率(SE)的有前途的技术。但是,由于高渗透率损失,苛刻的传播环境通常会导致沟通性能的显着降解。为了克服此问题,我们将可重新配置的智能表面(RIS)引入CF MMIMO系统中,作为低成本和功率较高的解决方案。在本文中,我们专注于优化RIS辅助CF MMIMO系统的关节预编码设计,以最大化总和SE。这涉及优化APS处的预编码矩阵和RIS的反射系数。为了解决这个问题,我们提出了包含模糊逻辑(FL)的完全分布的多代理增强学习(MARL)算法。与依靠交替优化技术的常规方法不同,我们基于FL的MARL算法仅需要本地渠道状态信息,这减少了对高回程容量的需求。仿真结果表明,我们提出的FL-MARL算法有效地降低了计算复杂性,同时达到与常规MARL方法相似的性能。
多代理增强学习(MARL)系统中的对抗沟通可能会对其性能产生重大的负面影响。这可能导致系统的次级优势,这是由于不正确或误导性信息引起的决策不良。以前的消除或减少对抗性交流的方法表明,在特定情况下,多代理通信的空间特征可用于检测。但是,它们的有效性是有限的,并且没有很好的文档,尤其是在复杂的场景和针对具有国防策略知识的恶意代理商中。此外,尽管许多先前的作品都集中在代理到代理交流的规范上,但其时间的性质和特征已在很大程度上被忽略了。在这项工作中,我们基于在时间图上的异常检测技术来测试许多不同的假设,以检测MARL系统中对抗性通信的检测和抑制。此外,我们提出了一种新颖的方法,并系统地评估了其在两个复杂的合作场景上使用各种不同的对手剂的有效性。最后,我们开发了一个框架,用于通过对抗性通信进行MARL实验,该实验可以为设计一致且可重现的实验提供统一的方法。
摘要 - 我们考虑了一个仓库,其中数十个移动机器人和人类采摘者共同努力收集和运送仓库中的物品。我们解决的基本问题(称为采摘订单问题)是这些工人代理必须如何协调其在仓库中的动作和行动,以最大程度地提高此任务的性能。使用启发式方法建立的行业方法需要大量的工程工作,以优化天生的仓库配置。相比之下,可以灵活地应用多代理增强学习(MARL)大小,布局,工人的数量/类型,项目补充频率)和不同类型的采摘订单范式(例如,商品对人和人的物品),因为代理商可以学习如何通过经验来最佳合作。我们开发了层次的MARL算法,在该算法中,经理代理商将目标分配给工人,经理和工人的政策是为了最大程度地提高全球目标(例如,选择率)。我们的层次结构算法在基线MARL算法上取得了显着提高,并且在多种仓库配置和不同的订单挑选范式中,多个已建立的行业启发式方法的总体选择率和整体选择率在多个已建立的行业启发式方面实现了显着提高。
摘要在不断发展的人工智能领域(AI)中,研究正在从专注于个别自主代理转变为探索代理团队的动态。这种转变需要从具有统一能力(同质)的代理转变为表现出多种技能和功能(异质)的人。在此阶段,对混合人类团队的研究是这种演变的自然扩展,有望将AI的应用扩展到其传统,高度控制的环境之外。但是,这种进步为学习系统带来了新的挑战,例如可信度和解释性。这些素质对于确保混合团队的有效合作和决策至关重要,在混合团队中,相互合作和分散控制是基本的。强化学习是一种灵活的学习框架,可以很好地适应半结构化的环境和互动,例如本工作中正在考虑的那些。本文旨在为弥合多代理增强学习(MARL)与其他专注于人类在团队中的存在或深入研究人类互动之间的差距。我们探讨了如何将MARL框架适应人类团队,突出一些必要的建模选择,讨论关键的建模决策,并突出主要的挑战和约束。我们的目标是为混合学习团队建立一个统一的框架,鼓励跨学科的捐款,以改善MARL的复杂环境。
人工智能(AI)在塑造未来的技术景观方面至关重要。多机构增强学习(MARL)已成为一种重要的AI技术,用于模拟各个领域的复杂动态,从而为自主代理之间的先进战略计划和协调带来了新的潜力。但是,其在敏感军事环境中的实际部署受到缺乏解释性的限制:可靠性,安全性,战略验证和人机相互作用的关键因素。本文回顾了MARL内解释性的最新进步,并提出了新颖的用例,强调了其不可或缺的检查代理决策过程。我们首先对现有技术进行了严格评估,并将其与军事策略的领域联系起来,重点是模拟空中战斗场景。然后,我们介绍了一种新型信息理论解释性描述符的概念,以分析代理人的合作能力。通过我们的研究,我们旨在强调精确理解AI决策并将这些人为产生的策略与人类理解和战略军事教义保持一致的必要性,从而提高AI系统的透明度和可靠性。通过阐明解释性在推进MARL进行操作防御方面的关键重要性,我们的工作不仅支持战略计划,而且还支持对军事人员进行洞察力和可理解的分析的培训。
通过多机构增强学习训练的自动驾驶汽车(MARL)在许多驾驶场景中都表现出了令人印象深刻的结果。,当面对各种驾驶风格和个性时,尤其是在高度相互挑战的情况下,这些训练有素的政策的表现会受到影响。这是因为常规MARL算法通常在所有代理商之间完全合作的行为下运行,并专注于在培训期间最大化团队奖励。为了解决此问题,我们介绍了人格建模网络(PENN),其中包括合作价值功能和个性参数,以模拟高度交互式场景中的各种交互。PENN还可以通过各种行为来培训背景交通流量,从而改善了自我车辆的性能和概括。我们的广泛的实验研究,该研究将不同的人格参数纳入高度交互式驾驶场景,证明了人格参数
摘要 - 机器学习(ML)任务是当今边缘计算网络中的主要工作量之一。现有的Edge-云调度程序将所需资源数量分配给每个任务,而最佳利用有限的边缘资源来完成ML任务。本文提出了Tapfinger,这是一种用于边缘群集的分布式调度器,可通过协作任务放置和精细元素的多资源分配来最大程度地减少ML任务的总完成时间。要学习任务不确定的资源敏感性和启用分布式计划,我们采用了多代理增强学习(MARL),并提出了几种技术以使其有效,包括MARL Backbone作为MARL Backbone,是Actor网络中的量身定制的任务选择阶段,以及Bayes theerem'theerem'orem and Ingess-Ingem and Ingem schem schem schem schem schem。我们首先实施一个单任务调度版本,该版本每次最多都有一个任务。然后我们将其推广到多任务调度案例,其中同时安排了一系列任务。我们的设计可以减轻扩展的决策空间,并产生快速收敛到最佳的调度解决方案。使用合成和测试床的ML任务痕迹进行了广泛的实验表明,与最先进的调度程序相比,Tapfinger的平均任务完成时间最高可减少54.9%,并提高资源效率。
摘要 - 多代理强化学习已成为控制多机器人系统的一种有希望的方法。尽管如此,MARL的样本效率低,这是其在机器人技术中更广泛应用的重要障碍。虽然数据增强似乎是提高样品效率的直接解决方案,但它通常会导致训练不稳定,从而使样本效率变得更糟。此外,手动为各种任务选择合适的增强是一个繁琐而耗时的过程。为了缓解这些挑战,我们的研究理论上分析了数据增强对MARL算法的含义。在这些信息的指导下,我们提出了Adaptaug,这是一个自适应框架,旨在选择性地识别有益的数据增强,从而实现了多机器人任务的卓越样本效率和整体性能。在模拟和现实世界多机器人方案中的广泛实验验证了我们提出的框架的有效性。
我们推出了 PowerGridworld 开源软件包,为用户提供轻量级、模块化和可定制的框架,用于创建以电力系统为中心的多智能体 Gym 环境,这些环境可轻松与现有的强化学习 (RL) 训练框架集成。尽管存在许多用于训练多智能体 RL (MARL) 策略的框架,但没有一个可以快速制作原型并开发环境本身,尤其是在异构(复合、多设备)电力系统的背景下,其中需要电力流解决方案来定义电网级变量和成本。PowerGridworld 有助于填补这一空白。为了突出 PowerGridworld 的主要功能,我们提供了两个案例研究,并演示了使用 OpenAI 的多智能体深度确定性策略梯度 (MADDPG) 和 RL-Lib 的近端策略优化 (PPO) 算法学习 MARL 策略。在这两种情况下,至少有一些智能体子集在每个时间步骤中将电力流解决方案的元素作为其奖励(负成本)结构的一部分。