摘要 — 当代分布式计算系统 (DCS)(例如云数据中心)规模庞大、复杂、异构,并且分布在多个网络和地理边界上。另一方面,物联网 (IoT) 驱动的应用程序正在产生大量需要实时处理和快速响应的数据。有效管理这些资源以向最终用户或应用程序提供可靠的服务是一项具有挑战性的任务。现有的资源管理系统 (RMS) 依赖于静态或启发式解决方案,而这些解决方案不足以满足这种复合和动态系统的需求。由于数据可用性和处理能力的出现,人工智能 (AI) 的出现体现为在 RMS 任务中探索自适应、准确和高效的数据驱动解决方案的可能性。在这方面,本文旨在得出资源管理中数据驱动解决方案的动机和必要性。它确定了与之相关的挑战,并概述了未来的潜在研究方向,详细说明了在不同的 RMS 任务中在哪里以及如何应用数据驱动技术。最后,它为 DCS 提供了一个概念数据驱动的 RMS 模型,并展示了两个实时用例(GPU 频率扩展和来自 Google Cloud 和 Microsoft Azure 的数据中心资源管理),展示了以 AI 为中心的方法的可行性。索引术语 — 分布式计算、资源管理、AI 技术、边缘计算、云计算
主要关键词