各种量子电路被用作多功能量子机学习模型。一些经验结果在监督和生成的学习任务中具有优势。但是,当应用于加固学习时,却少知道。在这项工作中,我们认为是由低深度硬件效果ANSATZ组成的变异量子电路,是增强学习代理的参数化策略。我们表明,可以使用对数数量的参数总数来获得策略梯度的ϵ- approximation。我们从经验上验证了这种量子模型的行为与标准基准标记环境中使用的典型经典神经网络和仅使用一小部分参数所使用的典型经典神经网络。此外,我们使用Fisher Information矩阵频谱研究量子策略梯度中的贫瘠高原现象。