摘要 - 预言学习(RL)已被证明在未来的智能无线网络中起着有希望的作用。在线RL已用于无线电资源管理(RRM),接管了传统计划。但是,由于依靠与环境的在线互动,其作用在在线互动不可行的实际,现实世界中受到限制。此外,在现实世界随机环境中的不确定性和风险面前,传统的RL在不确定性和风险面前处于短缺状态。以这种方式,我们为RRM问题提出了一个离线和分配RL方案,可以使用静态数据集启用离线培训,而无需与环境相互作用,并使用退货的分布来考虑不确定性的来源。仿真结果表明,所提出的方案的表现优于常规资源管理模型。此外,这是唯一超过在线RL的方案,比在线RL增长10%。索引术语 - 分布强化学习,离线强化学习,无线电资源管理
主要关键词