摘要 - 深度强化学习(DRL)通常需要大量的数据和环境相互作用,从而使培训过程耗时。在批处理RL的情况下,这一挑战进一步加剧了,在批处理RL的情况下,该代理仅在没有环境相互作用的预收集数据集上训练。量子计算的最新进展表明,与经典方法相比,量子模型可能需要更少的培训数据数据。在本文中,我们通过提出一种利用变量量子电路(VQC)作为离散批处理量Q-LEATER(BCQ)算法中的函数近似器来研究这种潜在优势。此外,我们通过周期性移动数据编码层中的输入变量顺序引入了新的数据重新上传方案。我们评估了算法在Openai Cartpole环境中的效率,并将其性能与基于经典的神经网络的离散BCQ进行比较。索引术语 - Quantum增强学习,批处理封装学习,变分量子计算,数据上传,数据重新上传,批量量子加固学习,离线量子加固学习。
摘要。配备了训练有素的环境动态,基于模型的型号增强学习(RL)算法可以成功地从固定尺寸的数据集中成功学习良好的策略,甚至有些质量较差的数据集。不幸的是,不能保证从训练有素的动态模型中生成的样品是可靠的(例如,某些合成样本可能位于静态数据集的支持区域的外面)。为了解决这一点,我们提出了与u ncleantity(tatu)的束缚t runcation,如果沿轨迹的累积不确定性太大,则可以自适应地截断合成轨迹。我们从理论上展示了塔图的绩效界限,以证明其受益合理。为了示出Tatu的优势,我们首先将其与两种基于经典模型的型号RL算法结合在一起,MOPO和组合。此外,我们将tatu与几个未经省的模型集成在一起,不含频率rl算法,例如BCQ。D4RL基准测试的实验结果表明,Tatu显着提高了其能力,通常会大幅度通过很大的边缘。代码可在此处找到。
有效的混合闭环系统的广泛采用将代表着患有1型糖尿病(T1D)患者的重要里程碑。这些设备通常利用简单的控制算法选择最佳的胰岛素剂量,以将血糖水平保持在健康范围内。在线增强学习(RL)已被用作进一步增强这些设备中葡萄糖控制的方法。以前的方法已显示可降低患者的风险并降低目标范围内所花费的时间,但在学习过程中容易出现不稳定性,通常会导致选择不安全的动作。这项工作提供了对离线RL的评估,用于制定有效的给药政策,而无需在培训期间进行潜在危险的患者互动。本文研究了BCQ,CQL和TD3-BC在管理FDA批准的UVA/Padova葡萄糖动力学模拟器中可用的30名虚拟患者的血糖中的实用性。接受在线RL以实现稳定性能所需的总培训样本的十分之一的培训时,这项工作表明,离线RL可以大大增加健康血糖的时间范围为61。6±0。3%至65。3±0。与最先进的基线相比5%(𝑝<0。001)。这是在低血糖事件中没有任何相关增加的情况下实现的。离线RL也被证明能够纠正常见和具有挑战性的控制场景,例如不正确的推注剂量,不规则的进餐时间和压缩误差。这项工作的代码可在以下网址提供:https://github.com/hemerson1/offline-glucose。
广泛采用有效的混合闭合环系统将为患有1型糖尿病(T1D)的人提供重要的护理里程碑。这些设备通常利用简单的控制算法选择最佳的胰岛素剂量,以将血糖水平保持在健康范围内。在线增强学习(RL)已被用作进一步增强这些设备中葡萄糖控制的方法。与经典的对照算法相比,先前的方法已被证明可以降低患者的风险和降低焦油范围的时间,但在学习过程中容易出现不稳定性,通常会导致选择不安全的动作。这项工作介绍了对o ffl iNe rl的评估,用于制定施用剂量政策,而无需在训练过程中进行潜在危险的患者互动。本文研究了BCQ,CQL和TD3-BC在管理FDA批准的UVA/Padova葡萄糖动力学模拟器中可用的30名虚拟患者的血糖中的实用性。接受在线RL以实现稳定性能所需的总培训样本的十分之一的培训时,这项工作表明,在健康的血糖范围内,OfflIne rl可以显着增加61个。6±0。3%至65。3±0。与最先进的基线相比5%(p <0。 001)。 这是在低血糖事件中没有任何相关增加的情况下实现的。 o rl也证明能够纠正与最先进的基线相比5%(p <0。001)。这是在低血糖事件中没有任何相关增加的情况下实现的。o rl也证明能够纠正