抽象的自主区域保护是多代理系统中重要的研究领域,旨在使捍卫者能够防止入侵者进入特定地区。本文提出了一个多代理区域保护环境(MRPE),其守卫者,防守者损害赔偿和入侵者逃避策略针对捍卫者。MRPE由于其高的非机构性和有限的拦截时间窗口而对传统保护方法提出了挑战。为了克服这些障碍,我们修改了进化增强学习,从而产生了相应的多代理区域保护方法(MRPM)。MRPM合并进化算法和深度强化学习的优点,特定利用差异进化(DE)和多代理的深层确定性政策梯度(MADDPG)。促进了各种样本探索并克服了稀疏的奖励,而MADDPG则训练防守者并加快了融合过程。此外,为多机构系统量身定制的精英选择策略是为了增强防御者的协作而设计的。本文还提出了巧妙的设计,以有效地推动政策优化的功能和奖励功能。最后,进行了广泛的数值模拟以验证MRPM的有效性。
4个集中批评方法16 4.1预赛。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。17 4.2基本的集中评论家方法。。。。。。。。。。。。。。。。。。。。。。。。。。17 4.3 Maddpg。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。20 4.4昏迷。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 4.5 Mappo。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 4.6基于州的批评家。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。23 4.7选择不同类型的分散和集中批评家。。。。。。。。。。24 4.8结合策略梯度和价值分解的方法。。。。。。。。。。。。25 4.9其他集中批评方法。。。。。。。。。。。。。。。。。。。。。。。。。。。25
定量市场的特征是迅速的动态和丰富的不确定性,使追求利润驱动的股票交易行动固有地具有挑战性。在这种情况下,加固学习(RL)(以奖励为中心的最佳控制机制运作)已成为对本文财务决策的潜在解决方案的潜在有效解决方案。本文深入研究了两种已建立的财务交易策略的融合,即恒定比例的投资组合保险(CPPI)和时间不变的投资组合保护(TIPP),并具有多代理的深层确定性政策级别(MADDPG)框架。因此,我们介绍了两种新型的多代理RL(MARL)方法:CPPI-MADDPG和Tipp-MADDPG,该方法量身定制,用于探索定量市场中的战略性交易。为了验证这些创新,我们以100个房地产股份的各种选择实施了它们。我们的经验发现表明,CPPI-MADDPG和TIPP-MADDPG策略始终超过其传统同行,从而确认了它们在定量交易领域的功效。
摘要 - 无人驾驶飞机(UAV)可以通过携带高清摄像头从各个方向和不同角度捕获道路状况的图片,这有助于更有效地收集相关的道路数据。,由于其能源能力有限,无人机在长时间执行相关任务时面临挑战。因此,关键的关注点是如何计划无人机的路径并最大程度地减少能源消耗。为了解决这个问题,我们建议使用无人机路径计划(MAUP)的多代理确定性策略梯度(MADDPG)算法。考虑到MAUP的能耗和记忆使用情况,我们进行了优化以减少这两个方面的消耗。首先,我们定义了一个旨在减少无人机能耗的优化问题。其次,我们将定义的优化问题转变为一个加强学习问题,并设计伤人以解决它。最后,我们通过减少MAUP隐藏层中的神经元的数量并在连接上进行细粒度修剪来优化能耗和内存使用情况。最终模拟结果表明,与其他方法相比,我们的方法有效地降低了无人机的能耗。
我们推出了 PowerGridworld 开源软件包,为用户提供轻量级、模块化和可定制的框架,用于创建以电力系统为中心的多智能体 Gym 环境,这些环境可轻松与现有的强化学习 (RL) 训练框架集成。尽管存在许多用于训练多智能体 RL (MARL) 策略的框架,但没有一个可以快速制作原型并开发环境本身,尤其是在异构(复合、多设备)电力系统的背景下,其中需要电力流解决方案来定义电网级变量和成本。PowerGridworld 有助于填补这一空白。为了突出 PowerGridworld 的主要功能,我们提供了两个案例研究,并演示了使用 OpenAI 的多智能体深度确定性策略梯度 (MADDPG) 和 RL-Lib 的近端策略优化 (PPO) 算法学习 MARL 策略。在这两种情况下,至少有一些智能体子集在每个时间步骤中将电力流解决方案的元素作为其奖励(负成本)结构的一部分。
摘要:本文研究了智能社区中需求端能量管理系统(EMS)的当地策略驱动的多代理深层确定性政策梯度(LSD-MADDPG)方法。LSD-MADDPG通过限制集中式培训期间的数据共享来修改常规MADDPG框架以仅离散的战略信息。在执行过程中,它仅依靠本地信息,消除了培训后数据交换。这种方法解决了EMS解决方案通常面临的关键挑战,这些解决方案为动态,不断增加的社区(例如沟通延迟,单点失败,可伸缩性和非机构环境)提供了。通过利用和共享代理商之间的战略信息,LSD-MADDPG优化了决策 - 同时提高培训效率并保护数据隐私,这是社区EMS的关键问题。拟议的LSD-MADDPG已被证明能够通过协调多个建筑物的室内温度控制和电动汽车充电时间表来降低能源成本并使社区需求曲线变平。比较案例研究表明,LSD-MADDPG通过确保各个建筑物的能源管理行动和社区范围的目标之间的公平对齐,在合作和竞争环境中都表现出色,从而突出了其提高未来智能社区能源管理的潜力。
摘要 - 已研究了用于支持多样化应用的Space-Air-fromend集成网络(SAGIN)切片,该应用由陆地(TL)组成,由基站(BS)部署(BS),由无人驾驶汽车(无人驾驶汽车(UAV)的空中层部署的空中层(AL)组成。每个Sagin组件的能力是有限的,在退出文献中尚未完全考虑高效和协同负载平衡。为了这种动机,我们最初提出了一种基于优先级的载荷平衡方案,用于Sagin切片,其中AL和SL合并为一层,即非TL(NTL)。首先,在相同的物理萨金下建造了三个典型的切片(即高通量,低延迟和宽覆盖片)。然后,引入了一种基于优先级的跨层负载平衡方法,用户将拥有访问陆地BS的优先级,并且不同的切片具有不同的优先级。更具体地说,超载的BS可以将低优先级切片的用户卸载到NTL。此外,通过制定多目标优化问题(MOOP),共同优化相应切片的吞吐量,延迟和覆盖范围。此外,由于TL和NTL的独立性和优先级关系,上述摩托车被分解为两个子摩托车。报告的仿真结果表明了我们提出的LB方案的优势,并表明我们所提出的算法优于基准测试器。最后,我们自定义了一个两层多代理的深层确定性策略梯度(MADDPG)算法,用于求解这两个子问题,该问题首先优化了TL的用户-BS关联和资源分配,然后确定UAVS的位置部署,USE-UAV/Leo satellite Satellite Association和NTL的资源分配。
最近,执行计算密集型任务的移动应用程序激增,例如视频流、数据挖掘、虚拟现实、增强现实、图像处理、视频处理、人脸识别和在线游戏。然而,平板电脑和智能手机等用户设备 (UD) 执行任务计算需求的能力有限。移动边缘计算 (MEC) 已成为一种有前途的技术,可以满足 UD 日益增长的计算需求。MEC 中的任务卸载是一种通过在 UD 和 MEC 服务器之间分配任务来满足 UD 需求的策略。深度强化学习 (DRL) 在任务卸载问题中越来越受到关注,因为它可以适应动态变化并最大限度地降低在线计算复杂度。然而,UD 和 MEC 服务器上各种类型的连续和离散资源限制对设计高效的基于 DRL 的任务卸载策略提出了挑战。现有的基于 DRL 的任务卸载算法侧重于 UD 的约束,假设服务器上有足够的存储资源。此外,现有的基于多智能体 DRL(MADRL)的任务卸载算法是同质智能体,并将同质约束视为其奖励函数中的惩罚。我们提出了一种新颖的组合客户端-主 MADRL(CCM_MADRL)算法,用于 MEC 中的任务卸载(CCM_MADRL_MEC),该算法使 UD 能够决定其资源需求,并让服务器根据 UD 的需求做出组合决策。CCM_MADRL_MEC 是任务卸载中第一个除了考虑 UD 中的约束之外还考虑服务器存储容量的 MADRL。通过利用组合动作选择,CCM_MADRL_MEC 表现出优于现有 MADDPG 和启发式算法的收敛性。