摘要本文展示了将自主网络防御应用于工业控制系统上的潜力,并提供了一个基线环境,以进一步探索多代理强化学习(MARL)对此问题领域的应用。它引入了通用集成平台管理系统(IPMS)的模拟环境,IPMSRL,并探讨了MARL对基于通用海事的IPMS Operational Technology(OT)的自动网络防御决策的使用。网络防御行动不如企业对IT的成熟。 这是由于OT基础架构的相对“脆性”性质源于使用传统系统,设计时间工程假设以及缺乏全面的现代安全控制。 ,由于不断增加网络攻击的复杂性以及传统以IT中心的网络防御解决方案的局限性,在网络景观中有许多障碍。 传统的IT控件很少在OT基础架构上部署,并且在它们的位置,某些威胁尚未完全解决。 在我们的实验中,多代理近端策略优化(MAPPO)的共享评论家实施优于独立近端策略优化(IPPO)。 Mappo达到了800K时间段之后的最佳政策(情节结果平均值),而IPPO只能达到一百万个时间段的情节结果平均值为0.966。 超参数调整大大改善了训练性能。网络防御行动不如企业对IT的成熟。这是由于OT基础架构的相对“脆性”性质源于使用传统系统,设计时间工程假设以及缺乏全面的现代安全控制。,由于不断增加网络攻击的复杂性以及传统以IT中心的网络防御解决方案的局限性,在网络景观中有许多障碍。传统的IT控件很少在OT基础架构上部署,并且在它们的位置,某些威胁尚未完全解决。在我们的实验中,多代理近端策略优化(MAPPO)的共享评论家实施优于独立近端策略优化(IPPO)。Mappo达到了800K时间段之后的最佳政策(情节结果平均值),而IPPO只能达到一百万个时间段的情节结果平均值为0.966。超参数调整大大改善了训练性能。在一百万个时间段中,调整后的超参数达到了最佳策略,而默认的超参数只能偶尔赢得胜利,大多数模拟导致抽签。我们测试了现实世界中的约束,攻击检测警报成功,并发现当警报成功概率降低到0.75或0.9时,MARL Defenders仍然能够分别在97.5%或99.5%的情节中获胜。
本文考虑了通过估算其奖励功能和约束来推断出多个相互作用专家行为的问题,在这些奖励功能和约束下,分布式所证明的轨迹被顺序向一组学习者揭示。我们将问题提出为分布式在线双层优化问题,其中外部级别的问题是估计奖励功能,而内部级别的问题是学习约束和相应的策略。我们提出了一种新颖的“来自分布式和流式演示的多代理行为推断”(MA鸟)算法,该算法使学习者可以通过间歇性通信在单个循环中解决外部级别和内部水平问题。我们正式保证分布式学习者就奖励功能,判断和政策达成共识,平均本地遗憾(在在线迭代中)以O(1 /n 1-η1+1 /n 1 +1 /n 1-η1-η2+1 /n)的速度下降,而累积约束违规会增加1 +1 +1 +1 +1 +1 +2 +nη (1/2,1)。
摘要 - 机器学习(ML)任务是当今边缘计算网络中的主要工作量之一。现有的Edge-云调度程序将所需资源数量分配给每个任务,而最佳利用有限的边缘资源来完成ML任务。本文提出了Tapfinger,这是一种用于边缘群集的分布式调度器,可通过协作任务放置和精细元素的多资源分配来最大程度地减少ML任务的总完成时间。要学习任务不确定的资源敏感性和启用分布式计划,我们采用了多代理增强学习(MARL),并提出了几种技术以使其有效,包括MARL Backbone作为MARL Backbone,是Actor网络中的量身定制的任务选择阶段,以及Bayes theerem'theerem'orem and Ingess-Ingem and Ingem schem schem schem schem schem。我们首先实施一个单任务调度版本,该版本每次最多都有一个任务。然后我们将其推广到多任务调度案例,其中同时安排了一系列任务。我们的设计可以减轻扩展的决策空间,并产生快速收敛到最佳的调度解决方案。使用合成和测试床的ML任务痕迹进行了广泛的实验表明,与最先进的调度程序相比,Tapfinger的平均任务完成时间最高可减少54.9%,并提高资源效率。
摘要 - 许多现实世界的应用程序可以作为多机构合作问题,例如网络数据包路由和自动驾驶汽车的协调。深入增强学习的出现(DRL)通过代理和环境的相互作用为多机构合作提供了一种有希望的方法。然而,传统的DRL解决方案在策略搜索过程中遭受了具有连续动作空间的多个代理的高维度。此外,代理政策的动态性使训练非平稳。为了解决这些问题,我们建议采用高级决策和低级个人控制,以进行有效的政策搜索。特别是,可以在高级离散的动作空间中学习多种代理的合作。同时,低级个体控制可以减少为单药强化学习。除了分层增强学习外,我们还建议对手建模网络在学习过程中对其他代理的政策进行建模。与端到端的DRL方法相反,我们的方法通过以层次结构将总体任务分解为子任务来降低学习复杂性。为了评估我们方法的效率,我们在合作巷更改方案中进行了现实世界中的案例研究。模拟和现实世界实验都显示了我们在碰撞速度和收敛速度中的优越性。索引条款 - 多机构合作;深入的强化学习;分层增强学习
摘要 - 采用电动汽车(EV)的增加趋势将显着影响住宅电力需求,从而导致分配网格中变压器过载的风险增加。为了减轻这种风险,迫切需要开发有效的EV充电控制器。当前,大多数EV电荷控制器都是基于管理单个电动汽车或一组电动汽车的集中式方法。在本文中,我们介绍了一个分散的多代理增强学习(MARL)充电框架,该框架优先确定电动汽车所有者的隐私。我们采用了集中的培训,分散的执行确定性策略梯度(CTDE-DDPG)方案,该方案在培训期间为用户提供有价值的信息,同时在执行过程中保持隐私。我们的结果表明,CTDE框架通过降低网络成本来提高充电网络的性能。此外,我们表明总需求的峰值与平均比率(PAR)减少了,进而降低了峰值时间内变压器过载的风险。索引术语 - 合作MARL,EV充电网络控制,分布式控制,需求端管理
现有监督神经元分割方法的性能高度取决于准确注释的数量,尤其是应用于大型电子显微镜(EM)数据时。通过从未标记的数据中提取语义信息,自我监督的方法可以证明下游任务的性能,其中掩码映像模型(MIM)在其从掩盖的IMEM中恢复原始信息时已广泛使用了蒙版图像模型(MIM)。然而,由于EM图像中高度的结构局部性,并且存在相当大的噪声,因此许多素数很少有歧视性信息,从而使MIM预处理对神经元细分任务有效。为了克服这一挑战,我们提出了一个基于决策的MIM,该MIM利用强化学习(RL)自动搜索最佳的图像掩盖率和掩盖策略。由于巨大的勘探空间,使用单代机Agent RL进行体素预测是不切实际的。因此,我们将每个输入补丁视为具有共同策略的代理,允许多代理协作。此外,这种多代理模型可以在体素之间取决于依赖性,这对下游分割任务是有益的。表明,我们的方法对神经元分割任务的替代自我监督方法具有重要的影响。代码可在https://github.com/ydchen0806/dbmim上使用。
多代理路径查找(MAPF)是在共享环境中发现无碰撞路径的问题,每个代理一个是每个代理的一个问题,同时最小化了旅行时间的总和。由于最佳地求解MAPF是NP-HARD,因此研究人员已经使用了副本且有效地求解MAPF的算法。基于优先级的搜索(PBS)是为此目的的领先算法。它一次找到一个单个代理的路径,并通过将优先级分配给碰撞代理并在其搜索过程中重新确定其路径来解决碰撞。但是,对于具有高密度的代理和障碍物的MAPF实例,PBS变得无效。因此,我们介绍了贪婪的PBS(GPB),该PBS(GPBS)使用贪婪的策略来通过最大程度地减少代理之间的碰撞数量来加快PBS。然后,我们提出了进一步加速GPB的技术,即部分扩展,目标推理,诱导的约束和软重新启动。我们表明,具有所有这些改进的GPB的成功率高于1分钟的运行时间限制的最先进的次优算法,尤其是对于具有小地图和密集障碍的MAPF实例。
摘要。使用具有符号表示的深度学习方法生成结构化的音乐,这是一项艰巨的任务,因为音乐元素之间的复杂关系定义了音乐构成。音乐的象征性表示,例如MIDI或乐谱音乐,可以通过以允许操纵和分析的格式编码音乐来帮助克服其中的一些挑战。但是,音乐的象征性表示仍然需要对音乐概念和理论的解释和理解。在本文中,我们提出了一种方法,该方法利用多代理系统(MAS)和强化学习(RL)进行象征性音乐生成。我们的模型主要集中于Music结构。它以较高的抽象水平运行,使其能够捕获长期的音乐结构和依赖性。我们将RL用作学习范式,人类用户作为音乐专家,以促进代理商对全球依赖和音乐特征的学习。我们展示了RL代理如何学习和适应用户的喜好和音乐风格。此外,我们介绍并讨论了在音乐发电领域中进行代理学习和适应和分布问题解决方案的方法的潜力。
使用库存管理的加固学习(RL)是研究的新生领域,方法往往限于简单的线性环境,其实现是对架子RL算法的较小修改。将这些简单的环境扩展到现实世界中的供应链带来了一些挑战,例如:最大程度地降低环境的计算要求,指定代表现实世界商店和仓库动态的代理的代理配置,并指定一个鼓励整个供应链中理想行为的奖励框架。在这项工作中,我们介绍了一个具有自定义GPU平行的环境的系统,该系统由一家仓库和多家商店组成,一种用于构图增强状态和动作空间的代理环境动力学的新型体系结构,以及共享的奖励规格,旨在为大型零售商的供应链的供应链的需求进行优化。供应链图中的每个顶点都是一个独立的代理,基于其自身的库存,能够将补充订单放在上游的顶点。仓库代理人除了订购供应商的订单外,还具有能够将补给品限制到下游的商店的特殊特征,这导致它学习了其他分配子政策。我们实现了一个超过标准库存控制政策的系统,例如基本库存策略和其他基于RL的产品的规范,并为多种产品提供了未来的工作方向。
•正常形式游戏(NFGS)•马尔可夫游戏(MGS)•两人零和马尔可夫游戏•多玩家通用 - 马尔可夫游戏•通过乐观算法更快地收敛•高级主题
