在异质排队系统中用于路由工作的有效强化学习__

在异质排队系统中用于路由工作的有效强化学习

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

在异质排队系统中用于路由工作的有效强化学习

¥ 1.0

热度

我们考虑了有效探索作业的问题，该问题到达中央队列到异质服务器系统。与ho-mogeneous Systems（一种阈值策略）不同，当队列长度超过一定阈值时，它将作业路由到慢速服务器，这对于一对一的一对一s-Slow两个服务器系统是最佳的。但是，多服务器系统的最佳策略是未知的，并且不琐碎。在强化学习（RL）被认为在这种情况下具有学习政策的巨大潜力，但我们的问题具有指数较大的状态空间规模，使标准RL效率低下。在这项工作中，我们提出了ACHQ，这是一种有效的基于策略梯度的算法，具有低维软阈值策略参数，利用了基本的排队结构。我们为一般情况提供了固定点的保证，尽管较低的参数化证明ACHQ对两台服务器的特殊情况有收敛到近似值的全局最佳最佳。模拟证明了预期的响应时间比贪婪政策的预期响应时间最高约30％，该政策将路由到最快的服务器。

添加pdf代下载 VIP点击下载文件