我们考虑了有效探索作业的问题,该问题到达中央队列到异质服务器系统。与ho-mogeneous Systems(一种阈值策略)不同,当队列长度超过一定阈值时,它将作业路由到慢速服务器,这对于一对一的一对一s-Slow两个服务器系统是最佳的。但是,多服务器系统的最佳策略是未知的,并且不琐碎。在强化学习(RL)被认为在这种情况下具有学习政策的巨大潜力,但我们的问题具有指数较大的状态空间规模,使标准RL效率低下。在这项工作中,我们提出了ACHQ,这是一种有效的基于策略梯度的算法,具有低维软阈值策略参数,利用了基本的排队结构。我们为一般情况提供了固定点的保证,尽管较低的参数化证明ACHQ对两台服务器的特殊情况有收敛到近似值的全局最佳最佳。模拟证明了预期的响应时间比贪婪政策的预期响应时间最高约30%,该政策将路由到最快的服务器。
主要关键词