摘要:有效的,可扩展的和成本效益的资源管理是一个多方面的在线决策问题,在网络和云计算方面越来越面临。更具体地,任务安排是一个复杂的挑战,解决了当今系统的最佳功能至关重要。调度的传统启发式方法在设计上很费力,尤其是很难调节,因此已经提出了各种基于机器的方法。强化学习(RL)在类似的决策问题中显示出很大的结果,许多现有方法采用RL来解决任务调度问题。这些作品中的大多数都考虑了单一代理的方案(因此遭受可伸缩性问题),或者现有的多代理应用程序非常专业。我们提出了一个通用多代理RL框架,该框架可以成功地学习协作最佳的调度策略,从而向既可以扩展又自主的云和网络迈出一步。我们的实验表明,这些代理可以协作学习动态工作负载的最佳调度策略。
主要关键词