2020; Jin等。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。特别是,对于有限的状态空间,神经功能近似值取得了显着的成功(Mnih等人。,2015年; Berner等。,2019年; Arulkumaran等。,2019年),而线性函数近似器理论上变得更好地理解(Yang和Wang,2020; Jin等人。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。相比之下,尽管在实践中普遍存在,但在部分观察到的马尔可夫决策过程中的强化学习(POMDPS)较少地研究(Cassandra等人,1996; Hauskrecht和Fraser,2000年; Brown and Sandholm,2018年; Ra i Qerty等。,2011年)。更具体地,部分可观察性构成了统计和计算。从统计的角度来看,由于缺乏马尔可夫财产,预测未来的奖励,观察或国家是一项挑战。尤其是,预测未来通常涉及推断国家的分布(也称为信仰状态)或其功能作为历史的摘要,即使假设(observation)发射和(状态)过渡内核也已知(Vlassis etal。 ,2012年; Golowich等。 ,2022)。 同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。 ,2021)。 ,2020a)。,2012年; Golowich等。,2022)。同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。,2021)。,2020a)。例如,它们通常是不可实现的(Kallus等人。即使假设它们是能够识别的,它们的估计可能需要一个样本量,该样本量在地平线和维度上成倍缩小(Jin等人。即使在评估政策方面,这种统计挑战也已经令人难以置信(Nair和Jiang,2021; Kallus等人。,2021; Bennett和Kallus,2021),构成了政策优化的基础。从计算角度来看,众所周知,策略优化通常是棘手的(Vlassis et al。,2012年; Golowich等。,2022)。此外,有限的观察和状态空间扩大了统计和计算挑战。另一方面,大多数现有结果仅限于表格设置(Azizzadenesheli等人。,2016年; Guo等。,2016年; Jin等。,2020a; Xiong等。,2021),其中观察和状态空间是有限的。在本文中,我们研究了POMDP中的线性函数近似,以解决有限观察和状态空间所扩增的实力挑战。尤其是我们的贡献是四倍。首先,我们定义了具有线性结构的一类POMDP,并确定了针对样品良好的增强学习的不良调节措施。这样的不良调节措施对应于表格设置中的重复(Jin等人,2020a)。第二,我们提出了一种增强学习算法(OP-TENET),该算法适用于任何POMDP承认上述线性结构。此外,我们在操作装置中使用最小值优化公式,以便即使数据集较大,也可以在计算功能庄园中实现算法。第三,从理论上讲,我们证明了Op -Tenet在o(1 /ǫ2)情节中达到了最佳政策。尤其是样品复杂性在线性结构的固有维度上缩放,并且是观测和状态空间大小的独立性。第四,我们的算法和分析基于新工具。 特别是,op-tenet的样本效率是由se- 启用的第四,我们的算法和分析基于新工具。特别是,op-tenet的样本效率是由se-
关于量子加密的研究在最近几十年中迅速发展,并结合了量子力学和加密理论。在现有的量子加密原始图中,量子混淆是不可忽视的新兴力量。量子混淆是指通过量子力学使电路混淆以提高安全性。它用于隐藏功能并防止量子电路的反向工程。然而,由于量子混淆的构建研究相对不成熟,这是由于其在实施和应用方面的困难。另外,尚未提出量子非线性函数的混淆,尽管量子非线性函数涵盖了可以混淆的广泛量子函数。在本文中,我们启动了量子混淆的通用定义,该定义利用量子传送来构造量子非线性函数的混淆器和解释器。此外,我们证明了将混淆性应用于量子不对称的加密方案的有效性,并严格地证明,量子混淆所实现的加密满足了IND(难以区分) - 苏格拉。这项工作为量子非线性函数提供了量子混淆的积极可能性,并将补充量子混淆和量子不对称加密的理论。
是出于实际应用的动机,最近的作品考虑了子模函数g和线性函数的总和的最大化。迄今为止,几乎所有此类工作仅研究了此问题的特殊情况,其中G也保证为单调。因此,在本文中,我们系统地研究了该问题的最简单版本,其中允许g是非单调的,即无约束的变体,我们将其称为正则不受约束的非约束下义最大化(正则化usizusm)。我们的主要算法结果是通用正则化usem的首个非平凡保证。对于线性函数ℓ是非阳性的正则uSM的特殊情况,我们证明了两个不Xibibibity的结果,表明先前的作品对这种情况暗示的算法结果远非最佳。最后,我们重新分析了已知的双重贪婪算法,以获得改进的正则化usemized use的特殊情况的保证,其中线性函数是非负的;我们通过表明无法获得(1 / 2,1)对这种情况的APPROXIMATION(尽管有直觉的论点表明这种近似保证是自然的)来补充这些保证。