Loading...
机构名称:
¥ 1.0

通过提高深度学习工作负载的利用率来降低成本是云提供商的关键杠杆。我们推出了 Singularity,这是微软的全球分布式调度服务,可高效可靠地执行深度学习训练和推理工作负载。Singularity 的核心是一种新颖的工作负载感知调度程序,它可以透明地抢占和弹性扩展深度学习工作负载,以提高利用率,而不会影响它们在全球 AI 加速器(如 GPU、FPGA)中的正确性或性能。默认情况下,Singularity 中的所有作业都是可抢占、可迁移和动态调整大小(弹性)的:实时作业可以动态且透明地 (a) 被抢占并迁移到不同的节点、集群、数据中心或区域集,并从抢占点准确恢复执行,以及 (b) 在给定类型的不同加速器集上调整大小(即弹性地扩大/缩小)。我们的机制是透明的,因为它们不需要用户对其代码进行任何更改,也不需要使用任何可能限制灵活性的自定义库。此外,我们的方法显著提高了深度学习工作负载的可靠性。我们表明,使用 Singularity 可以获得效率和可靠性的提升,而对稳态性能的影响可以忽略不计。最后,我们的设计方法与 DNN 架构无关,并且可以处理各种并行策略(例如数据/管道/模型并行)。

奇点:人工智能工作负载的行星级、抢占式和弹性调度

奇点:人工智能工作负载的行星级、抢占式和弹性调度PDF文件第1页

奇点:人工智能工作负载的行星级、抢占式和弹性调度PDF文件第2页

奇点:人工智能工作负载的行星级、抢占式和弹性调度PDF文件第3页

奇点:人工智能工作负载的行星级、抢占式和弹性调度PDF文件第4页

奇点:人工智能工作负载的行星级、抢占式和弹性调度PDF文件第5页

相关文件推荐

2024 年
¥1.0
2020 年
¥1.0
2020 年
¥1.0
2020 年
¥1.0
2023 年
¥3.0
2024 年
¥4.0
2023 年
¥1.0