在X射线光刻(XRL)过程中,一些对X射线敏感并在特定溶剂中照射后改变溶解速率的材料(称为抗蚀剂)通过掩模暴露于X射线源并被图案化。掩模由重Z元素(Au,W等)组成,用作吸收区,而载体基板由低衰减元素(Si,Be,金刚石,SiC,SiNx等)组成(Tormen等人,2011年)。 XRL 的概念最早由 H. Smith 和 Spears 于 1972 年提出(Spears and Smith,1972;Smith 等,1973),由于其波长更短、穿透深度更大(比传统紫外光刻技术更短),引起了微纳米制造界的关注,为构建具有高深宽比、厚光刻胶和几乎垂直侧壁的微型器件提供了新的可能性(Maldonado 等,1975;Maydan 等,1975)。XRL 是 LIGA 工艺 [德语缩写 Lithographie Galvanoformung Abformung,意为光刻电沉积、成型(Becker 等,1986)] 的基本步骤,包括在显影的光刻胶结构中电沉积金属,以获得模具或电极,用于后续的复制工艺,如成型或电火花加工。 X 射线可分为软 X 射线和硬 X 射线(或深 X 射线),软 X 射线的能量范围为 150 eV 至约 2 keV,硬 X 射线(或深 X 射线)的能量则大于 5 keV。软 XRL 适用于光刻胶厚度有限的高分辨率结构(< 50 nm)。深 XRL(DXRL)通常用于 LIGA 工艺及照射厚光刻胶(数百微米)。目前,同步辐射设备中已有 XRL 技术。半导体行业对 XRL 的兴趣与技术节点的定义有关。该术语指的是特定的半导体制造工艺及其设计规则:最初,节点号定义了栅极长度或半节距(HP),而目前(22 nm 以下)它与采用特定技术制造的特定一代芯片有关。由于波长比紫外线更短,XRL 有可能确保所有技术节点的“分辨率储备”。此外,它不需要像紫外光刻那样在每个技术节点上都使用不同的设备。然而,该技术的潜力尚未得到充分发挥,因为人们首先关注的是紫外光刻,然后是极紫外光刻(Tormen 等人,2011 年)。最近,XRL 引起了 Next 2 节点(10 纳米技术节点以外)及以后的新关注,这主要是由于软 X 射线干涉光刻的潜力(Wu 等人,2020 年,Mojarad 等人,2015c 年)。
可解释的强化学习(XRL)是可解释的机器学习的新兴子场,近年来引起了相当大的关注。XRL的目标是阐明在顺序决策设置中加强学习(RL)代理的决策过程。配备了这些信息,从业人员可以更好地理解有关RL代理(尤其是在现实世界中部署的代理人)的重要问题,例如代理商将要做什么和原因。尽管兴趣提高,但在组织众多论文的文献中仍存在差距,尤其是以某种方式集中了问题的决策性质。在本调查中,我们提出了一种新的分类法,以组织优先级RL设置的XRL文献。我们提出了三个高级类别:特征重要性,学习过程和马尔可夫决策过程以及政策级别。我们根据这种分类法概述技术,强调了未来工作的挑战和机会。我们通过利用这些差距来激励和概述未来工作的路线图。
深度加强学习(DRL)在跨不同领域的序列决策任务中取得了显着的成功,但其对黑盒神经体系结构的依赖阻碍了可相互可预性,信任和在高风险应用程序中的部署。可解释的深度强化学习(XRL)通过通过特征级别,州级,数据集级别和模型级解释技术来实现透明度来解决这些挑战。本调查提供了对XRL方法的全面审查,评估了其质量和定量评估框架,并探讨了它们在政策改造,副本的鲁棒性和安全性中的作用。此外,我们研究了通过从人类反馈(RLHF)学习的强化学习的大语模型(LLM)的增强学习的整合,从而优化了AI与人类偏好的一致性。我们通过高照明开放研究挑战和未来的指导来结束,以促进可解释,可靠和负责任的DRL系统的发展。
本文通过人类和AI的反馈对进步的增强学习(RL)进行了全面审查,重点是可解释的强化学习(XRL)的新兴子领域。它研究了解释性技术如何在顺序决策设置中提高RL代理决策过程的透明度,从而使从业者能够更好地理解和信任代理人的行为。该评论还探讨了从人类反馈(RLHF)学习增强性挑战的挑战,并从AI反馈(RLAIF)中引入了强化学习,这是一个有希望的选择。通过利用现成的大语言模型(LLMS)生成偏好标签,RLAIF解决了手动人类反馈的时间耗时和昂贵的性质,同时取得了可比或优越的结果。该论文进一步讨论了RLHF和RLAIF的开放问题和基本局限性,强调了对改善其实际实施的强大方法的需求。结束时,概述了旨在完善和补充RLHF和RLAIF的未来研究指示,以增强其在现实世界应用中的有效性和社会影响。
近年来,增强学习(RL)已成为一种有力的工具,可在光网络(例如路由和波长分配(RWA)[1]等光网络中解决复杂而染色的优化问题[1],路由,调制和频谱分配(RMSA)[2]以及虚拟网络嵌入[3]。RL实现的性能效果表明其在现实世界中的应用潜力。但是,与其他机器学习(ML)算法类似,RL模型具有黑盒性质,使它们难以解释。这种特征使RL模型难以信任,因此在实际的光网部署中采用。对于监督的ML模型,Shap(Shapley添加说明)[4]是一种可解释的AI方法,已被广泛采用。Shap是一种基于合作游戏理论的方法,用于量化单个特征对模型决策过程的影响。Shap值提供了对每个功能的相对重要性(影响)的见解,从而估算了它们如何对模型的输出做出贡献。将这种解释性框架应用于传播质量(QOT)预测任务时,已显示出有希望的属性[5]。最近,由于需要解释和使RL模型的决策过程透明的驱动,可解释的RL(XRL)受到了越来越多的关注。在光网络的上下文中,XRL的概念仍然相对尚未探索。先前建议通过反向工程网络状态[6]或网络中资源使用分析(链接)来解释和解释RL模型的决策[1,7]。但是,这些研究并未分析不同特征如何影响RL药物的决策。因此,在光网络背景下,RL代理学到的政策仍然存在一段差距。这至关重要,因为网络运营商需要在其在实际网络中部署之前了解RL学习策略背后的推理。在这项工作中,我们旨在利用Shap(Shapley添加说明)[4]来解释应用于RMSA问题的RL模型的行为。为此,我们提出了一种使用训练有素的RL代理的观察和行动来以有监督的学习方式训练ML模型的方法。由Shap使用所得的ML模型来提取解释。与[2]中的RMSA问题的每个组件分别求解,RL代理解决路由问题,基于路径长度的调制格式选择以及基于第一拟合策略的频谱分配。我们分析了该问题的三种变化,改变了奖励函数和选择RL代理的不可行的动作的可能性。我们特别有兴趣解释重要的网络和LightPath请求特征,该特征导致RL模型拒绝该请求。结果允许我们确定哪些功能和哪些值范围影响RL代理接受或拒绝LightPath请求。我们观察到,通过更改奖励功能,RL策略会更改拒绝请求时所考虑的重要功能。引入了防止RL模型采取不可行的措施的掩码,使功能的重要性更加均匀地分布在不同的路由选项上。我们认为,提出的方法对于增加将在真实网络中部署的RL模型的可信度可能是有价值的。