量子架构搜索 (QAS) 是使用智能算法自愿设计量子电路架构的过程。最近,Kuo 等人 (Quantum architecture search via deepreinforcement learning. arXiv preprint arXiv:2104.07715, 2021) 提出了一种基于深度强化学习的 QAS (QAS-PPO) 方法,该方法使用近端策略优化 (PPO) 算法自动生成量子电路,无需任何物理专业知识。然而,QAS-PPO 既不能严格限制新旧策略之间的概率比,也不能强制执行明确定义的信任域约束,导致性能不佳。在本文中,我们提出了一种新的基于深度强化学习的 QAS 方法,称为基于信任区域的 PPO 和 QAS 回滚 (QAS-TR-PPO-RB),仅从密度矩阵自动构建量子门序列。具体而言,受 Wang 研究工作的启发,我们使用改进的裁剪函数来实现回滚行为,以限制新策略与旧策略之间的概率比。此外,我们利用基于信任域的裁剪触发条件,通过将策略限制在信任域内来优化策略,从而保证单调改进。在多个多量子比特电路上的实验表明,我们提出的方法比原始的基于深度强化学习的 QAS 方法获得了更好的策略性能和更低的算法运行时间。
主要关键词