近年来,增强学习(RL)已成为一种有力的工具,可在光网络(例如路由和波长分配(RWA)[1]等光网络中解决复杂而染色的优化问题[1],路由,调制和频谱分配(RMSA)[2]以及虚拟网络嵌入[3]。RL实现的性能效果表明其在现实世界中的应用潜力。但是,与其他机器学习(ML)算法类似,RL模型具有黑盒性质,使它们难以解释。这种特征使RL模型难以信任,因此在实际的光网部署中采用。对于监督的ML模型,Shap(Shapley添加说明)[4]是一种可解释的AI方法,已被广泛采用。Shap是一种基于合作游戏理论的方法,用于量化单个特征对模型决策过程的影响。Shap值提供了对每个功能的相对重要性(影响)的见解,从而估算了它们如何对模型的输出做出贡献。将这种解释性框架应用于传播质量(QOT)预测任务时,已显示出有希望的属性[5]。最近,由于需要解释和使RL模型的决策过程透明的驱动,可解释的RL(XRL)受到了越来越多的关注。在光网络的上下文中,XRL的概念仍然相对尚未探索。先前建议通过反向工程网络状态[6]或网络中资源使用分析(链接)来解释和解释RL模型的决策[1,7]。但是,这些研究并未分析不同特征如何影响RL药物的决策。因此,在光网络背景下,RL代理学到的政策仍然存在一段差距。这至关重要,因为网络运营商需要在其在实际网络中部署之前了解RL学习策略背后的推理。在这项工作中,我们旨在利用Shap(Shapley添加说明)[4]来解释应用于RMSA问题的RL模型的行为。为此,我们提出了一种使用训练有素的RL代理的观察和行动来以有监督的学习方式训练ML模型的方法。由Shap使用所得的ML模型来提取解释。与[2]中的RMSA问题的每个组件分别求解,RL代理解决路由问题,基于路径长度的调制格式选择以及基于第一拟合策略的频谱分配。我们分析了该问题的三种变化,改变了奖励函数和选择RL代理的不可行的动作的可能性。我们特别有兴趣解释重要的网络和LightPath请求特征,该特征导致RL模型拒绝该请求。结果允许我们确定哪些功能和哪些值范围影响RL代理接受或拒绝LightPath请求。我们观察到,通过更改奖励功能,RL策略会更改拒绝请求时所考虑的重要功能。引入了防止RL模型采取不可行的措施的掩码,使功能的重要性更加均匀地分布在不同的路由选项上。我们认为,提出的方法对于增加将在真实网络中部署的RL模型的可信度可能是有价值的。
来自图卢兹三重唱学院的年轻人将首次在凯旋门下演唱歌曲《En terres étrangères》,以此向在外部行动中牺牲的士兵致敬。
减少该国空气污染是环境与自然资源部(DENR)的优先计划之一。 根据《共和国法》第8749号法案或1999年的《菲律宾清洁空气法》,其环境管理局(EMB)正在不断制定策略,以提出有效的工具,以此作为制定清洁空气的决策和政策的基础。 这样的工具是该国家空气质量状况报告(NAQSR)的开发2021。减少该国空气污染是环境与自然资源部(DENR)的优先计划之一。根据《共和国法》第8749号法案或1999年的《菲律宾清洁空气法》,其环境管理局(EMB)正在不断制定策略,以提出有效的工具,以此作为制定清洁空气的决策和政策的基础。这样的工具是该国家空气质量状况报告(NAQSR)的开发2021。