增强学习(RL)是机器学习研究的重要领域,它越来越多地应用于物理中的复杂优化问题。并行,物理学的概念与熵限制的RL等发展有助于RL的重要进展。尽管这些发展导致了两个领域的进步,但在熵调查的RL中获得了优化的分析解决方案,目前是一个空旷的问题。在本文中,我们在熵限制的RL和研究中的研究中建立了映射,该统计学专注于马尔可夫过程以罕见事件为条件。在长期限制中,我们将大型偏差理论的方法应用于马尔可夫决策过程中最佳策略和最佳动态(MDP)模型的确切分析结果。获得的结果导致了熵调查的RL的分析和计算框架,该框架通过模拟验证。这项工作中建立的映射将强化学习和非平衡统计力学方面的研究联系起来,从而为将分析和计算方法的应用从一个领域到另一个领域的尖端问题开放。
受对老虎机问题渐近行为研究的启发,我们得到了几个策略驱动的极限定理,包括大数定律、大偏差原理和中心极限定理。与经典极限定理不同,我们开发了抽样策略驱动的极限定理,这些定理可以产生最大或最小平均回报。大数定律确定了各种策略下可以实现的所有可能极限。大偏差原理提供了偏离极限域的最大衰减概率。为了描述围绕平均值的波动,我们得到了最优策略下的策略驱动的中心极限定理。这些定理中的极限是明确确定的,并且在很大程度上取决于事件的结构或积分函数和策略。这展示了学习结构的关键特征。我们的结果可用于估计最大(最小)回报,并确定避免双臂老虎机问题中帕隆多悖论的条件。它也为通过统计推断确定提供更高平均奖励的臂奠定了理论基础。
a) 在编制年度账目时,已遵循适用的会计准则,并对重大偏差作出适当解释;b) 董事已选定并持续应用该等会计政策,同时作出合理及审慎的判断和估计,以真实及公平地反映公司在财政年度末的状况以及公司该期间的利润;c) 董事已根据当地法规的规定,采取适当及足够的谨慎措施,以维护充足的会计记录,以保护公司资产,并防止和发现欺诈和其他违规行为;d) 董事已在持续经营的基础上编制年度账目;e) 董事已设计适当的制度,以确保遵守所有适用法律的规定,并确保该等制度充分且有效运作。
摘要 - 与传统的基于变压器的电台相比,完全可控制的基于电子设备的铁路馈线提供了更好的电源质量和更灵活的配置。本文研究了具有可再生能源访问的基于模块化的多级转换器(MMC)的静态转换器站。通过背部转换器的直流链路将风力发电耦合到车站。动态的单相牵引负载和间歇性可再生生成为DC链路电压带来了双重频率振荡和大偏差问题。提出了特殊的设计注意事项和控制方案,以通过控制插入的总模块的总数来稳定DC链路电压。所提出的控制方案解决了由单相负载引起的电压振荡问题,并在10 MW步骤变化下降低了直流链路电压偏差。一系列基于设备的模拟验证了控制方案,该方案实现了可靠的耦合接口,以将可再生生成连接到直流总线。
在1986年在Dan Voiculescu的一系列论文中引入后,自由概率在其理论和应用中都实现了令人难以置信的增长。这包括Nica和Speicher首先引入的自由库群的理论,该理论通过组合镜的镜头提供了一个统一的框架,以理解经典和自由的独立性[27]。它已被用作各个领域的工具,包括随机矩阵理论,组合,对称组的表示,大偏差和量子信息理论。在大多数情况下,上面提到的关系仅在渐近意义上存在,这主要是由于没有非平凡的自由对象存在于实用维度。然而,作者与丹尼尔·斯皮尔曼(Daniel Spielman)和尼克希尔·斯里瓦斯塔瓦(Nikhil Srivastava)的最新作品[18,19,22]表明,有限结构的行为与渐近的“自由”行为非常相似,尽管从技术上讲并不是“自由”。本文的目的是提出一种理论,我们称之为“有限的自由概率”,是一种扩展基本概念和自由概率的见解,以使用多项式卷积为有限的对象。
简介。— 具有约束动力学的系统在非平衡物理的许多领域都引起了人们的兴趣。动力学约束模型 (KCM) [1 – 3] 为解释 [4 – 6] 玻璃中缓慢和非均匀动力学的出现提供了一个框架 [7 – 10] ,它们的研究促进了动态大偏差和轨迹集合方法的发展 [11 – 13] 。在阻塞条件下,量子约束动力学自然出现在诸如里德堡原子之类的系统中 [14 – 17] ,这引发了关于在没有无序的情况下缓慢热化和非遍历性的问题 [18 – 31] 。实现动力学约束的最简单设置是在具有离散动力学的晶格系统中,例如细胞自动机 [32,33] 或量子电路 [34] 。对于这样的设置,已经有可能获得许多精确的结果,这些结果巩固了我们对量子动力学的理解,包括关于算子动力学、信息传播和热固定(参见,例如,参考文献。[35 – 66] )。量子电路对于量子系统和量子计算的实验模拟也至关重要,它已被用于展示量子优势、执行随机基准测试以及研究非平衡 Floquet 动力学 [67 – 77] 。在这里,我们考虑通过研究量子 East 模型 [78 – 80] 的电路版本来表征动力学约束的动力学效应,该模型本身是经典 East 模型 [2] 的量子泛化。使用与对偶单元电路 [53,61,61] 类似的方法,我们精确地解决了热化动力学问题。
随机幺正动力学是量子力学中描述系统与环境或外部场相互作用演化的一种有效方式。 其最初想法由 Caldeira 和 Leggett 提出,用于研究自旋集合与玻色子浴相互作用的有效动力学 [1]。 由于与未知自由度的相互作用引起的涨落和耗散,此类系统的性质预计会与孤立系统有明显不同。 随机幺正动力学也可用于理论研究量子混沌系统的典型和普遍行为。 因此,这类研究最近重新焕发了活力,特别是在随机幺正电路 [2-9] 以及传统多体系统 [10-16] 的背景下。通过增加随机性,这些系统应该会失去其与特殊性有关的优良性质,例如守恒定律,从而允许出现一般性质。这些包括纠缠的产生 [ 2 , 4 , 17 – 24 ]、信息的扰乱 [ 3 , 6 , 25 , 26 ] 或在收敛到热或非平衡稳态的系统中算符的扩展 [ 5 , 7 , 8 ]。特别是在一些量子随机模型 [ 4 , 14 , 15 , 19 ] 中,有人认为纠缠熵的增长和涨落受 Kardar-Parisi-Zhang (KPZ) 方程 [ 27 – 33 ] 支配。随机共形场论中纠缠增长的大偏差涨落也被证明属于 KPZ 类 [ 34 ]。最近,在超扩散非随机自旋链模型 [ 35 – 38 ] 中,还发现了 KPZ 方程的一些标度特征,这些特征与自旋-自旋关联函数的长期衰减有关。KPZ 类行为在量子多体系统中的普遍性程度仍是一个悬而未决的问题。