摘要 - 在本文中,我们提出了一种新型的调度方案,以确保单跳无线网络的每包延迟,以延迟关键应用程序。我们考虑了几类具有不同延迟要求的包装,高级数据包在成功传输后产生高实用性。考虑到竞争数据包之间延迟的相关性,我们应用了延迟范围的概念,并为调度决策引入了新的输出增益功能。特别是,选择数据包的选择不仅要考虑其输出增益,还考虑了其他数据包的延迟范围。在这种情况下,我们制定了一个多目标优化问题,旨在最小化平均队列长度,同时在保证每包延迟的约束下最大化平均输出增益。然而,由于环境的不确定性(例如,时变通道条件和随机数据包到达),使用传统的优化技术解决此问题是困难的,而且通常是不切实际的。我们开发了基于深入的增强学习(DRL)的框架来解决它。特别是,我们将原始优化问题分解为一组标量优化子问题,并将它们都作为部分可观察到的马尔可夫决策过程(POMDP)。然后,我们求助于基于双重Q网络(DDQN)的算法,以学习每个子问题的最佳调度策略,这是CanoverComethelarge-ScalestatesPaceAstatesPaceAndredCeanDreduceq-valueoveres-timation。仿真结果表明,我们提出的基于DDQN的算法在奖励和学习速度方面优于常规Q学习算法。此外,与其他基准方案相比,我们提出的调度方案可以显着减少平均延迟和延迟中断率。
主要关键词