在将强化学习(RL)应用于现实世界问题时至关重要。作为一种疾病,Safe RL已成为一种基本而有力的范式,用于优化代理人的政策,同时纳入安全概念。一种安全的RL方法是基于一个受约束的标准,该标准旨在最大程度地提高预期的累积奖励。尽管最近努力提高RL的安全性,但对该领域的系统理解仍然很困难。这一挑战源于约束表示的多样性和对其相互关系的探索。为了弥合这一知识差距,我们对代表约束表述进行了全面的综述,以及专门针对每个公式设计的算法选择的选择。此外,我们阐明了理论基础,这些基础揭示了共同问题之间的数学相互关系。我们在讨论安全加强学习研究的当前状态和未来方向的讨论中结束。
开发大规模超导量子处理器的方法必须应对固态设备中普遍存在的大量微观自由度。最先进的超导量子比特采用氧化铝 (AlO x ) 隧道约瑟夫森结作为执行量子操作所需的非线性源。对这些结的分析通常假设一种理想化的纯正弦电流相位关系。然而,这种关系预计仅在 AlO x 屏障中透明度极低的通道极限下成立。在这里,我们表明标准电流相位关系无法准确描述不同样品和实验室中 transmon 人造原子的能谱。相反,通过非均匀 AlO x 屏障的介观隧穿模型预测了更高约瑟夫森谐波的百分比级贡献。通过将这些包括在 transmon 哈密顿量中,我们获得了计算和测量能谱之间数量级更好的一致性。约瑟夫森谐波的存在和影响对于开发基于 AlO x 的量子技术(包括量子计算机和参数放大器)具有重要意义。例如,我们表明,经过设计的约瑟夫森谐波可以将传输量子比特中的电荷分散和相关误差降低一个数量级,同时保持其非谐性。