量子计算霸权论证描述了量子计算机执行传统计算机无法完成的任务的方式,通常需要某种与传统计算的局限性相关的计算假设。一个常见的假设是多项式层次结构(PH)不会崩溃,这是 P ̸ = NP 命题的更强版本,这导致的结论是,对某些量子电路系列的任何经典模拟所需的时间缩放都比电路大小的任何多项式更差。然而,这个结论的渐近性质使我们无法计算这些量子电路必须具有多少个量子比特,才能使它们的经典模拟在现代经典超级计算机上无法解决。我们改进这些量子计算霸权论证,并通过施加非崩溃猜想的细粒度版本来执行此类计算。我们的前两个猜想 poly3-NSETH( a ) 和 per-int-NSETH( b ) 采用了特定的经典计数问题,这些问题与 F2 上的 n 元 3 次多项式的零点数量或 n × n 整数值矩阵的永久项有关,并断言解决这些问题的任何非确定性算法都需要 2cn 个时间步长,其中 c ∈{a,b}。第三个猜想 poly3-ave-SBSETH( a ′ ) 断言了类似的命题,即平均情况算法存在于复杂度类 SBP 的指数时间版本中。我们分析了这些猜想的证据,并论证了当 a = 1/2、b = 0.999 和 a ′ = 1/2 时它们是合理的。
量子计算霸权论证描述了量子计算机执行传统计算机无法完成的任务的方式,通常需要某种与传统计算的局限性相关的计算假设。一个常见的假设是多项式层次结构(PH)不会崩溃,这是 P ̸ = NP 命题的更强版本,这导致的结论是,对某些量子电路系列的任何经典模拟所需的时间缩放都比电路大小的任何多项式更差。然而,这个结论的渐近性质使我们无法计算这些量子电路必须具有多少个量子比特,才能使它们的经典模拟在现代经典超级计算机上无法解决。我们改进这些量子计算霸权论证,并通过施加非崩溃猜想的细粒度版本来执行此类计算。我们的前两个猜想 poly3-NSETH( a ) 和 per-int-NSETH( b ) 采用了特定的经典计数问题,这些问题与 F2 上的 n 元 3 次多项式的零点数量或 n × n 整数值矩阵的永久项有关,并断言解决这些问题的任何非确定性算法都需要 2cn 个时间步长,其中 c ∈{a,b}。第三个猜想 poly3-ave-SBSETH( a ′ ) 断言了类似的命题,即平均情况算法存在于复杂度类 SBP 的指数时间版本中。我们分析了这些猜想的证据,并论证了当 a = 1/2、b = 0.999 和 a ′ = 1/2 时它们是合理的。
2 相对论性点粒子 2.1 2.1 非相对论性作用..................................................................................................................................................................2.1 2.2 世界线作用..................................................................................................................................................................................................2.2 2.3 多项式作用..................................................................................................................................................................................................2.3 2.4 各种规范.................................................................................................................................................................................. . ... .2.6
▶多项式拥堵游戏:成本是D度的多项式。▶低α的精确或α平衡不存在。[FKS05,HKS14,CGG + 23]▶低α的确切或α-抗性决策问题的NP-固定度。[CGG + 23]▶大型α的存在α-平衡。[CF19]▶为更大α的α平衡的有效计算。[CFGS11]
为了确保在实际系统中加固学习的有用性(RL),确保它们对噪声和对抗性攻击至关重要。在对抗RL中,外部攻击者有能力操纵受害者与环境的互动。我们研究了整个在线操纵攻击,其中包括(i)国家攻击,(ii)观察攻击(这是对状态的概括),(iii)行动攻击和(iv)奖励攻击。我们表明了攻击者设计的隐形攻击问题,该攻击最大化了其自身的预期奖励,通常与最小化受害者的价值相对应,这是由马尔可夫·德克尼(Markov DeSision)过程(MDP)捕获的,我们称之为元MDP,因为它不是真实的环境,而是通过攻击互动所带来的更高级别的环境。我们表明,攻击者可以通过在多项式时间进行计划或使用Standard RL技术进行多项式样本复杂性来得出最佳攻击。我们认为,可以将受害者的最佳防御政策计算为对Stochastic Stackelberg游戏的解决方案,可以将其进一步简化为基于部分的基于转弯的随机游戏(POTBSG)。攻击者和受害者都不会从各自的最佳政策中受益,因此这种解决方案确实很健壮。尽管防御问题是NP-HARD,但我们表明在许多情况下,可以在多项式时间(样本复杂性)中计算(学习)最佳的马尔可夫防御。
基础状态的部分可观察性通常对控制学习(RL)提出了重大挑战。实际上,某些特权信息,例如,从模拟器中访问州的访问已在培训中得到利用,并取得了杰出的经验成功。为了了解特权信息的好处,我们在这种情况下重新访问并检查了几个简单且实际使用的范例。具体来说,我们首先正式化了专家蒸馏的经验范式(也称为教师学习),证明了其在发现近乎最佳政策时的陷阱。然后,我们确定部分可观察到的环境的条件,即确定性的滤波器条件,在该条件下,专家蒸馏实现了两个多项式的样品和计算复杂性。此外,我们研究了不对称参与者 - 批评者的另一个有用的经验范式,并专注于更具挑战性的可观察到的部分可观察到的马尔可夫决策过程。我们开发了一种具有多项式样本和准多项式计算复杂性的信念加权不对称的演员算法,其中一个关键成分是一种新的可培养的甲骨文,用于学习信念,可在不指定的模型下保留过滤器稳定性,这可能是独立的。最后,我们还可以使用特权信息来介绍部分可观察到的多代理RL(MARL)的可证明的效率。与最近的一些相关理论研究相比,我们的重点是理解实际启发的算法范式,而无需进行棘手的甲壳。我们开发了具有集中式训练 - 二级化 - 执行的算法,这是经验MARL中的流行框架,具有多项式样本和(Quasi-)多项式组成的复杂性,在上述两个范式中。
我们介绍了一种通用方法来准备振幅由某个已知函数给出的量子态。与现有方法不同,我们的方法不需要手工制作的可逆算术电路或量子内存负载来编码函数值。相反,我们使用模板量子特征值变换电路将低成本的正弦函数块编码转换为所需函数。我们的方法仅使用 4 个辅助量子比特(如果近似多项式具有确定奇偶性,则为 3 个),与最先进的方法相比,量子比特数减少了一个数量级,同时如果函数可以很好地用多项式或傅里叶近似表示,则使用类似数量的 Toffili 门。与黑盒方法一样,我们方法的复杂性取决于函数的“L2 范数填充分数”。我们证明了我们的方法在准备量子算法中常用的状态(例如高斯和凯泽窗口状态)方面的效率。
