GPU 集群中的预测辅助在线分布式深度学习工作负载调度
机构名称:
¥ 1.0

摘要 — 近年来深度学习 (DL) 模型的爆炸式增长使得人们迫切需要在 GPU 集群中对混合并行分布式深度学习训练 (DDLwMP) 进行高效的作业调度。本文提出了一种自适应最短剩余处理时间优先 (A-SRPT) 调度算法,这是一种新颖的预测辅助在线调度方法,旨在缓解与 DL 集群调度相关的挑战。通过将每个作业建模为与异构深度神经网络 (DNN) 模型及其相关的分布式训练配置相对应的图,A-SRPT 策略性地将作业分配给可用的 GPU,从而最大限度地减少服务器间的通信开销。观察到大多数 DDLwMP 作业会重复出现,A-SRPT 结合随机森林回归模型来预测训练迭代。至关重要的是,A-SRPT 将复杂的调度问题映射到单机实例中,该实例通过抢占式“最短剩余处理时间优先”策略得到最佳解决。该优化解决方案可作为 GPU 集群内实际作业调度的指南,从而实现理论上可证明的竞争性调度效率。我们进行了广泛的真实测试平台和模拟实验来验证我们提出的算法。

GPU 集群中的预测辅助在线分布式深度学习工作负载调度

GPU 集群中的预测辅助在线分布式深度学习工作负载调度PDF文件第1页

GPU 集群中的预测辅助在线分布式深度学习工作负载调度PDF文件第2页

GPU 集群中的预测辅助在线分布式深度学习工作负载调度PDF文件第3页

GPU 集群中的预测辅助在线分布式深度学习工作负载调度PDF文件第4页

GPU 集群中的预测辅助在线分布式深度学习工作负载调度PDF文件第5页

相关文件推荐

无监督深度学习
2025 年
¥18.0
人工智能深度学习
2020 年
¥1.0
深度学习基础.pdf
2020 年
¥1.0