33238 移除永久起搏器静脉电极 HMO|PPO* Carelon 33240 插入带有现有单导线的除颤器 BCNA|MAPPO|HMO|PPO* Carelon 33241 移除除颤器 BCNA|MAPPO|HMO|PPO* Carelon 33243 通过切口移除除颤器电极 BCNA|MAPPO|HMO|PPO* Carelon 33244 通过静脉移除除颤器电极 BCNA|MAPPO|HMO|PPO* Carelon 33249 插入植入式除颤系统 BCNA|MAPPO|HMO|PPO* Carelon 33262 移除和更换单导线除颤器 BCNA|MAPPO|HMO|PPO* Carelon 33263 移除和更换双导线除颤器 BCNA|MAPPO|HMO|PPO* Carelon 33264 移除和更换多导线除颤器 BCNA|MAPPO|HMO|PPO* Carelon 33270 插入或更换带电极的除颤器 BCNA|MAPPO|HMO|PPO* Carelon 33271 插入除颤器电极 BCNA|MAPPO|HMO|PPO* Carelon 33272 移除除颤器电极 BCNA|MAPPO|HMO|PPO* Carelon 33273 重新定位除颤器电极 BCNA|MAPPO|HMO|PPO* Carelon
摘要本文展示了将自主网络防御应用于工业控制系统上的潜力,并提供了一个基线环境,以进一步探索多代理强化学习(MARL)对此问题领域的应用。它引入了通用集成平台管理系统(IPMS)的模拟环境,IPMSRL,并探讨了MARL对基于通用海事的IPMS Operational Technology(OT)的自动网络防御决策的使用。网络防御行动不如企业对IT的成熟。 这是由于OT基础架构的相对“脆性”性质源于使用传统系统,设计时间工程假设以及缺乏全面的现代安全控制。 ,由于不断增加网络攻击的复杂性以及传统以IT中心的网络防御解决方案的局限性,在网络景观中有许多障碍。 传统的IT控件很少在OT基础架构上部署,并且在它们的位置,某些威胁尚未完全解决。 在我们的实验中,多代理近端策略优化(MAPPO)的共享评论家实施优于独立近端策略优化(IPPO)。 Mappo达到了800K时间段之后的最佳政策(情节结果平均值),而IPPO只能达到一百万个时间段的情节结果平均值为0.966。 超参数调整大大改善了训练性能。网络防御行动不如企业对IT的成熟。这是由于OT基础架构的相对“脆性”性质源于使用传统系统,设计时间工程假设以及缺乏全面的现代安全控制。,由于不断增加网络攻击的复杂性以及传统以IT中心的网络防御解决方案的局限性,在网络景观中有许多障碍。传统的IT控件很少在OT基础架构上部署,并且在它们的位置,某些威胁尚未完全解决。在我们的实验中,多代理近端策略优化(MAPPO)的共享评论家实施优于独立近端策略优化(IPPO)。Mappo达到了800K时间段之后的最佳政策(情节结果平均值),而IPPO只能达到一百万个时间段的情节结果平均值为0.966。超参数调整大大改善了训练性能。在一百万个时间段中,调整后的超参数达到了最佳策略,而默认的超参数只能偶尔赢得胜利,大多数模拟导致抽签。我们测试了现实世界中的约束,攻击检测警报成功,并发现当警报成功概率降低到0.75或0.9时,MARL Defenders仍然能够分别在97.5%或99.5%的情节中获胜。
4个集中批评方法16 4.1预赛。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。17 4.2基本的集中评论家方法。。。。。。。。。。。。。。。。。。。。。。。。。。17 4.3 Maddpg。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。20 4.4昏迷。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 4.5 Mappo。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 4.6基于州的批评家。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。23 4.7选择不同类型的分散和集中批评家。。。。。。。。。。24 4.8结合策略梯度和价值分解的方法。。。。。。。。。。。。25 4.9其他集中批评方法。。。。。。。。。。。。。。。。。。。。。。。。。。。25
摘要 - 增强学习(RL)在通过州行动 - 奖励反馈循环中优化多车合作驾驶策略的巨大潜力,但它仍然面临着诸如低样本效率之类的挑战。本文提出了一种基于稳态过渡系统的差异奖励方法,该方法通过分析交通流量特征将国家过渡梯度信息纳入奖励设计中,旨在优化多车辆合作决策中的行动选择和政策学习。在不同的自动驾驶汽车渗透率下,在RL算法(例如Mappo,MADQN和QMIX)中验证了所提出的方法的性能。结果表明,在交通效率,安全性和行动合理性方面,差异化奖励方法显着加速了培训的融合,并优于核心奖励和其他方面的奖励。此外,该方法表现出强大的可扩展性和环境适应性,为在复杂的交通情况下制定多机构合作决策提供了一种新颖的方法。