碳市场是一种基于市场的工具,它使经济代理人与全球公用事业相吻合,即减少碳散布以应对气候变化。CAP和贸易是基于分配和交易碳津贴(碳排放信用)的关键原则,使经济代理人能够遵循计划的释放并惩罚超额排放。中央当局负责在CAP和贸易中引入和分配这些津贴。然而,碳市场动态的复杂性使准确的模拟难以理解,这反过来又构成了有效分配策略的设计。为了解决这个问题,我们提出了一个自适应机制设计框架,使用高级,无模型的多代理增强学习(MARL)模拟市场。政府代理商分配了企业,而企业从事经济活动和碳交易。这个框架全面地行为。nu-Merical结果表明,MARL使政府代理人能够平衡生产率,平等和货物的排放。我们的项目可从https://github.com/xwanghan/carbon-simulator获得。
摘要本文展示了将自主网络防御应用于工业控制系统上的潜力,并提供了一个基线环境,以进一步探索多代理强化学习(MARL)对此问题领域的应用。它引入了通用集成平台管理系统(IPMS)的模拟环境,IPMSRL,并探讨了MARL对基于通用海事的IPMS Operational Technology(OT)的自动网络防御决策的使用。网络防御行动不如企业对IT的成熟。 这是由于OT基础架构的相对“脆性”性质源于使用传统系统,设计时间工程假设以及缺乏全面的现代安全控制。 ,由于不断增加网络攻击的复杂性以及传统以IT中心的网络防御解决方案的局限性,在网络景观中有许多障碍。 传统的IT控件很少在OT基础架构上部署,并且在它们的位置,某些威胁尚未完全解决。 在我们的实验中,多代理近端策略优化(MAPPO)的共享评论家实施优于独立近端策略优化(IPPO)。 Mappo达到了800K时间段之后的最佳政策(情节结果平均值),而IPPO只能达到一百万个时间段的情节结果平均值为0.966。 超参数调整大大改善了训练性能。网络防御行动不如企业对IT的成熟。这是由于OT基础架构的相对“脆性”性质源于使用传统系统,设计时间工程假设以及缺乏全面的现代安全控制。,由于不断增加网络攻击的复杂性以及传统以IT中心的网络防御解决方案的局限性,在网络景观中有许多障碍。传统的IT控件很少在OT基础架构上部署,并且在它们的位置,某些威胁尚未完全解决。在我们的实验中,多代理近端策略优化(MAPPO)的共享评论家实施优于独立近端策略优化(IPPO)。Mappo达到了800K时间段之后的最佳政策(情节结果平均值),而IPPO只能达到一百万个时间段的情节结果平均值为0.966。超参数调整大大改善了训练性能。在一百万个时间段中,调整后的超参数达到了最佳策略,而默认的超参数只能偶尔赢得胜利,大多数模拟导致抽签。我们测试了现实世界中的约束,攻击检测警报成功,并发现当警报成功概率降低到0.75或0.9时,MARL Defenders仍然能够分别在97.5%或99.5%的情节中获胜。
摘要 - 强化学习(RL)是顺序决策的有效工具,并且已经在许多具有挑战性的现实世界任务中实现了人类能力。作为多代理系统域中RL的扩展,多代理RL(MARL)不仅需要学习控制策略,而且还需要考虑与环境中与所有其他代理的相互作用,以及不同的系统组件之间的相互影响以及计算资源的分布。这增加了算法设计的复杂性,并对计算资源提出了更高的要求。同时,模拟器对于获取现实数据至关重要,这是RL的基本原理。在本文中,我们首先提出了一系列模拟器指标,并总结了现有基准的功能。第二,为了简化理解,我们回想起基础知识,然后综合了最近对MAL相关的自动驾驶和智能运输系统的高级研究。具体来说,我们检查了他们的环境建模,状态表示,感知单位和算法设计。最终讨论了公开挑战,前景和机遇。我们希望本文能够帮助研究人员整合MARL技术,并触发更有洞察力的想法,以实现智能和自主驾驶。
摘要 - 面向以下的无人机网络已被广泛用于结构检查,灾难监测,边境监视等。由于无人机电池容量有限,任务执行策略会影响网络绩效和任务完成。但是,在如此动态的环境中,协作执行是无人机的一个问题问题,因为它也涉及有效的轨迹设计。我们利用多代理增强学习(MARL)来管理这项研究中的挑战,让每个无人机学会根据其当前状态和环境协作执行任务并计划轨迹。仿真结果表明,所提出的协作执行模型至少可以在80%的时间内成功完成任务,无论任务位置和长度如何,甚至在任务密度不太稀疏时甚至可以达到100%的成功率。据我们所知,我们的工作是利用MARL为以任务为导向的无人机网络的协作执行的开拓者研究之一;这项工作的独特价值在于无人机电池水平推动了我们的型号设计。索引术语 - 面向以下的无人机网络,协作执行,多代理增强学习,深Q-network
摘要 - 采用电动汽车(EV)的增加趋势将显着影响住宅电力需求,从而导致分配网格中变压器过载的风险增加。为了减轻这种风险,迫切需要开发有效的EV充电控制器。当前,大多数EV电荷控制器都是基于管理单个电动汽车或一组电动汽车的集中式方法。在本文中,我们介绍了一个分散的多代理增强学习(MARL)充电框架,该框架优先确定电动汽车所有者的隐私。我们采用了集中的培训,分散的执行确定性策略梯度(CTDE-DDPG)方案,该方案在培训期间为用户提供有价值的信息,同时在执行过程中保持隐私。我们的结果表明,CTDE框架通过降低网络成本来提高充电网络的性能。此外,我们表明总需求的峰值与平均比率(PAR)减少了,进而降低了峰值时间内变压器过载的风险。索引术语 - 合作MARL,EV充电网络控制,分布式控制,需求端管理
摘要在不久的将来,自动驾驶汽车(AV)可能会与混合型官员中的人类驾驶员同居。这种同居在造成的流行和个人流动性方面以及从道路安全的角度提出了严重的挑战。混合术可能无法满足预期的安全要求,然后自动驾驶汽车可能会垄断该官员。使用多机构增强学习(MARL)算法,研究人员试图针对两种情况设计自动驾驶汽车,本文研究了他们最近的进步。我们专注于解决决策问题的文章,并确定四个范式。有些作者解决了或者没有社会可行的AV的混合问题问题,而另一些作者则解决了完全自治的案例。虽然后一种情况本质上是一个交流问题,但大多数解决混合处理的作者承认了一些局限性。文献中发现的当前人类驾驶员模型过于简单,因为它们不涵盖驾驶员行为的异质性。因此,他们无法概括各种可能的行为。对于所研究的每篇论文,我们分析了作者如何从观察,行动和奖励方面提出MARL问题以匹配它们所应用的范例。
我们从多智能体强化学习 (MARL) 的角度研究了一个双层经济系统,我们称之为马尔可夫交换经济 (MEE)。MEE 涉及一个中央计划者和一组自利的智能体。智能体的目标是形成竞争均衡 (CE),其中每个智能体在每一步都短视地最大化自己的效用。中央计划者的目标是操纵系统以最大化社会福利,社会福利被定义为所有智能体效用的总和。在效用函数和系统动态都未知的环境中,我们建议通过 MARL 的在线和离线变体从数据中找到社会最优策略和 CE。具体而言,我们首先设计一个专门针对 MEE 的新型次优度量,这样最小化这样的度量就可以为计划者和智能体证明全局最优策略。其次,在线设置中,我们提出了一种称为 MOLM 的算法,该算法将探索的乐观原则与子博弈 CE 寻求相结合。我们的算法可以轻松结合用于处理大状态空间的一般函数逼近工具,并实现次线性遗憾。最后,我们根据悲观原则将算法调整为离线设置,并建立次优性的上限。
合作多代理增强学习(MARL)中的“视力范围难题”提出了一个重大挑战:有限的访问性阻碍团队的协调,而广泛的视线范围会导致注意力分散注意力和绩效下降。虽然通讯可以潜在地解决这个问题,但现有的方法通常很难跨越不同的视觉范围,从而限制了它们的有效性。我们提出了策略,任务不合时宜的对比前训练策略间互动。策略是一种自适应沟通机制,即使执行过程中的视线范围与训练中的视线范围大不相同,也可以增强代理坐标。通信机制编码消息并将其与本地观察结果集成在一起,并使用对比度学习以基于全球状态的产生表示形式。通过学习生成和解释有关整个环境重要信息的信息,策略使代理商能够通过交流有效地“看到”更多的信息,无论其视觉范围如何。我们在各种情况下,在各种情况下对SMACV2基准进行了全面评估。结果表明,战术始终优于传统的最先进的MARL技术,而没有通信,而在训练中尤其是在极限有限或广泛的观察性的情况下,对视力范围有所不同。
决策通常需要平衡立即满足与长期利益。在增强学习(RL)中,这种平衡行为受到时间差异的影响,该行为量化了未来奖励的贬值。事先的研究表明,与RL中使用的常规指数折扣相比,人类决策与双曲线折扣更加与双曲线折扣保持一致。随着人造代理变得更加先进和普遍,尤其是在与人类的多代理设置中,对适当的折扣模型的需求变得至关重要。尽管已经提出了单质学习的双曲线折扣,但其在多代理增强学习中的潜力(MARL)仍未开发。我们在MAL中介绍和制定双曲线折扣,在各种框架上建立理论和实践基础,包括独立学习,集中策略差异和价值分解方法。我们评估了多余的合作任务的双曲线折扣,将其与指数折扣基线进行了比较。我们的结果表明,双曲线折扣在60%的方案中获得了更高的回报,并且在95%的任务中以指数折扣的速度表现出色,并在稀疏奖励和协调密集的环境方面得到了显着改善。这项工作为高级多代理系统开发的强大决策过程开辟了新的途径。
2020)设置。但是,大多数现有的解决方案都是根据对手遗忘的关键假设建立的,这意味着损失功能的变化不取决于代理的历史轨迹。这个关键的假设限制了无重组算法对许多RL字段的适用性,尤其是多代理增强学习(MARL)(Yang and Wang,2020)。在一个多代理系统中,由于所有代理人都在同时学习,因此一个代理商对其策略的改编将使环境从其他代理商的角度来看。因此,要找到每个玩家的最佳策略,必须考虑他人的战略反应,而不是纯粹是遗忘的。因此,研究非固定算法针对非合理的对手是将现有在线学习技术调整为MARL设置的关键步骤。在线学习中的另一个挑战是系统中的非连面动态。当代理应用无需重格算法(例如乘法更新)(MWU)(Freund and Schapire,1999)或关注正规领导者(FTRL)(Shalev-Shwartz等人),2011年)要互相对抗,该系统展示了庞加莱经常性的行为(Mertikopoulos等人。,2018年),这意味着永远无法实现最后一轮融合(Bailey and Piliouras,2018)。最近的作品(Dinh等人,2021a; Daskalakis和Panageas,