摘要 - 强化学习(RL)使代理商从与环境的互动期间收集的试验经验中学习。最近,离线RL已成为流行的RL范式,因为它可以节省与环境的交互。在离线RL中,数据提供商共享大型预计数据集,而其他人可以在不与环境互动的情况下训练高质量的代理。此范式在机器人控制,自动驾驶等关键任务中表现出了有效性。但是,对调查离线RL系统的安全威胁的关注更少。本文重点介绍了后门攻击,其中将一些扰动添加到数据(观察)中,以便给定正常观察,代理采取了高奖励动作,并且对注入触发器注入的观察结果进行了低奖励动作。在本文中,我们提出了B Affle(用于离线执行学习的后门攻击),这种方法通过毒化离线RL数据集自动植入后门来植入RL代理,并评估不同的离线RL算法对此攻击的反应。我们对四个任务和九个离线RL算法进行的实验表明了令人不安的事实:现有的脱机RL算法都不对这种后门攻击免疫。更具体地说,B Affle修改了10%的数据集(3个机器人控制和1个自主驾驶)。在中毒数据集中受过训练的代理在正常设置中表现良好。但是,当出现触发器时,代理的性能会大大降低63。2%,53。9%,64。7%和47。平均四个任务中的4%。在干净的数据集上微调中毒代理后,后门仍然持续。我们进一步表明,流行的防御方法也很难检测到插入后的后门。本文呼吁关注开放源离线RL数据集更有效的保护。
在过去的几年中,对非平衡环境中纠缠增长的动力学进行了深入探索,揭示了富含等级现象的丰富结构和普遍性类别[1-5]。最近,沿着该方向的研究已从热带测量范围扩展到完整的纠缠谱(ES)[6],后者捕获了纠缠的最终结构。已经表明,ES的动力学能够区分不同复杂性[7-9]的随机统一回路,以及基础汉密尔顿基础的热化和局部融化阶段[10-13]。此外,ES中级别排斥的开始信号是操作员前线的传播,这是量子混乱的重要诊断和信息争夺[14-16]。Clifford电路的分析提供了一个清晰的例子,即ES反映由量子电路产生的状态的复杂性。这些电路可以通过经典地进行效率模拟,因此由于单质量旋转受限而无法获得通用量子计算的能力[17,18]。尽管Clifford电路可以产生与HAAR随机状态相同的最大纠缠熵的状态[19],但此类状态的ES要么是(对于稳定剂初始状态)[4,20]或Poisson分布(对于随机初始产品状态)[8]与Wigner-Dyson(Wigner-Dyson(W-D)相反,因此在Haar的状态下分布在Haar的情况下。重要的相关问题是降低和随机基准测试的问题,即相位检索,量子状态的区分性和量子通道速率误差的估计[21-28]。此外,如[6,8]所示,泊松和W-D之间的过渡与随机量子电路的出现不可逆性有关,这反过来又与以下事实有关,即由Clifford电路产生的最大纠缠侵入型的爆发与Haar随机状态的极大不同。这些任务需要构建T - 设计,即一组大门,它重现了HAAR测量的第一矩[29]。通用门的随机电路可以构建4 - 设计,基于Clifford组的随机电路可以构建3 - 设计,但未能是4 - 设计,这是一个人需要几种降低剂量的协议。众所周知,Clifford组产生了4-设计的良好近似[30]。因此,人们期望一个较小的扰动 - 克利福德(Clifford)外部的几个门 - 应该屈服于4个设计。特别是,受干扰的Clifford电路应该能够重现以通用量子电路演变的系统的纠缠熵的波动,通常需要比复制平均纠缠熵所需的更高级设计。在本文中,我们回答了一个问题,即人们需要添加到Clifford电路中的T门的密度,以将ES从泊松转换为W-D分布,这是通用量子电路的必要条件。此外,我们提出了一个关于过渡到未脱版性和更高T-设计的猜想。如图1(左图)。但是,在时间演变的第二阶段时,ES可能会发生变化。我们首先使用随机Clifford电路进化随机产品状态,直到它们的纠缠熵达到最大值。然后,我们将作用于一定数量的随机量子尺的T门插入电路中,然后继续随机使用Clifford电路演变。由于纠缠熵在插入T门之前已经饱和,因此无法进一步增加。我们提出一个问题:热力学极限中需要多少个t门才能将ES从泊松变为w- d分布?值得注意的是,我们使用各种ES统计量度的有限尺寸缩放分析,即单个T门有足够的能力毒化在热力学极限下纯Clifford电路的泊松统计。n量子位量表系统的W-D分布的偏差为E-γn t n,其中γ是一个阶的常数,n t是插入的T门的数量。这表明在有限的系统大小限制中,ES流向W-D分布