摘要 - 无线网络控制系统(WNC)通过实现传感器,决策中心和执行器之间的无线协调来彻底改变工业自动化。但是,WNC中效率低下的访问控制和资源分配是限制闭环性能和控制稳定性的两个关键因素,尤其是在光谱和能源资源受到限制时。在本文中,我们首先分析了维持WNC的控制稳定性的最佳调度条件,然后制定一个长期优化问题,该问题可以共同优化边缘设备的访问策略,并在Edge Server中授予策略和资源分配。我们采用Lyapunov优化将长期优化问题分解为一系列独立的子问题,并提出了一个基于基于多代理的多代理深度强化学习算法的异质注意图,该学习算法可以共同优化访问和资源分配策略。通过利用注意力机制将图形表示从异质代理投射到统一的空间中,我们提出的算法促进了异质剂之间的协调,从而增强了整体系统性能。仿真结果表明,我们提出的框架的表现优于几个基准,从而验证了其有效性。
深度强化学习(DRL)在任务卸载问题方面越来越受欢迎,因为它可以适应动态变化并最大程度地减少在线计算复杂性。但是,在用户设备(UDS)和移动边缘计算(MEC)服务器上的各种类型的连续和离散资源约束对高效的基于DRL的任务下载策略的设计构成了挑战。假设服务器上有足够的存储资源,则基于DRL的任务折扣算法重点关注UDS的约束。此外,现有的基于多种DRL(MADRL)的任务攻击算法是同质代理,并将同质的约束视为其奖励功能的惩罚。在这项工作中,我们提出了一种新颖的组合客户端MADRL(CCM_MADRL)算法,用于在移动边缘compoting中进行任务卸载(CCM_MADRL_MEC),允许UDS决定其重新源要求,并根据UDS的要求做出组合决策。ccm_madrl_mec是任务卸载的第一种MADRL方法,即除了UDS的限制外,考虑服务器存储的ca- partical。通过利用组合动作选择,CCM_MADRL_MEC显示出优于现有基准和启发式算法的优越性收敛性。
沟通是协调多个代理商行为,广泛提出对环境的看法并支持其协作的有效机制。在多代理深度强化学习(MADRL)领域,代理可以改善整体学习绩效并通过交流来实现其目标。代理可以向所有代理或特定代理人组传达各种类型的消息,或者以特定的约束为条件。随着MADRL与交流的研究工作的成长(Comm-Madrl),缺乏一种系统和结构性的方法来区分和分类现有的COMM-MADRL方法。在本文中,我们调查了Comm-Madrl领域的最新作品,并考虑了可以在设计和开发多机构强化学习系统中发挥作用的沟通的各个方面。考虑到这些方面,我们提出了9个维度,可以分析,开发和比较comm-madrl方法。通过将现有作品投影到多维空间中,我们发现了有趣的趋势。我们还提出了一些新的方向,以通过探索尺寸的可能组合来签署未来的通信系统。
我们研究了按需自动移动性(AMOD)系统中的车辆派遣,在该系统中,Central操作员将车辆分配给客户要求或拒绝这些车辆以最大化其总利润。最近的方法使用多代理深入强化学习(MADRL)来衡量可扩展但性能的算法,但基于本地奖励的训练代理,这会扭曲对系统范围的利润的奖励信号,从而导致较低的绩效。因此,我们提出了一种新型的基于全球奖励的MADRL算法,用于在AMOD系统中派遣车辆,该算法通过向代理商分配奖励,以利用反面基线的代理来解决训练有素的代理商与运营之间的现有目标冲突。与具有本地奖励的状态MADRL算法相比,我们的算法在现实世界数据的各种环境上显示了统计学上的显着改进。我们进一步提供了结构性分析,表明全球奖励的利用可以改善隐式车辆的平衡和需求预测能力。可以在https://arxiv.org/abs/2312.08844上找到我们论文的扩展版本,包括附录。我们的代码可从https:// github获得。com/tumbais/gr-madrl-amod。关键字:多学科学习,学分分配,深入强化学习,自主性按需
最近,执行计算密集型任务的移动应用程序激增,例如视频流、数据挖掘、虚拟现实、增强现实、图像处理、视频处理、人脸识别和在线游戏。然而,平板电脑和智能手机等用户设备 (UD) 执行任务计算需求的能力有限。移动边缘计算 (MEC) 已成为一种有前途的技术,可以满足 UD 日益增长的计算需求。MEC 中的任务卸载是一种通过在 UD 和 MEC 服务器之间分配任务来满足 UD 需求的策略。深度强化学习 (DRL) 在任务卸载问题中越来越受到关注,因为它可以适应动态变化并最大限度地降低在线计算复杂度。然而,UD 和 MEC 服务器上各种类型的连续和离散资源限制对设计高效的基于 DRL 的任务卸载策略提出了挑战。现有的基于 DRL 的任务卸载算法侧重于 UD 的约束,假设服务器上有足够的存储资源。此外,现有的基于多智能体 DRL(MADRL)的任务卸载算法是同质智能体,并将同质约束视为其奖励函数中的惩罚。我们提出了一种新颖的组合客户端-主 MADRL(CCM_MADRL)算法,用于 MEC 中的任务卸载(CCM_MADRL_MEC),该算法使 UD 能够决定其资源需求,并让服务器根据 UD 的需求做出组合决策。CCM_MADRL_MEC 是任务卸载中第一个除了考虑 UD 中的约束之外还考虑服务器存储容量的 MADRL。通过利用组合动作选择,CCM_MADRL_MEC 表现出优于现有 MADDPG 和启发式算法的收敛性。