血糖(BG)控制涉及通过体外胰岛素注射将个人的BG保持在健康范围内,对于1型糖尿病患者来说,这是一项重要任务。但是,传统的患者自我管理繁琐且冒险。最近的研究致力于探索个性化和自动化的BG控制方法,其中深度强化学习(DRL)显示了潜力作为新兴方法。在本文中,我们使用药物浓度的指数衰减模型将BG控制问题的形式化转换为从PAE-POMDP(PAE-POMDP(PAE-POMDP)延长作用效应,可观察到的Markov决策过程)将药物效应的延迟和延长转换为MDP,并提出了一种新型的Multi-Step Drl基于基于多的基于基于多人的algorith的方法来解决问题。还使用了优先的体验重播(PER)采样方法。与单步自动化更新相比,多步学习更有效,并降低了偏见目标的影响。与同一训练环境中的基准相比,我们所提出的方法收敛更快,并获得更高的累积奖励,并改善了时间范围(TIR),在评估阶段,患者的BG的时间百分比在目标范围内。我们的工作验证了多步DRL在BG控制中的有效性,这可能有助于探索最佳的血糖控制措施并改善糖尿病患者的存活率。
主要关键词