Loading...
机构名称:
¥ 1.0

摘要 - 为了促进各种机器学习(ML)培训和推理任务,企业倾向于建立大型且昂贵的集群,并在不同的团队中共享各种ML工作负载。虚拟化平台(集装箱/VM)和调度程序通常被部署,以允许访问,管理异质资源并在这些群集中安排ML作业。但是,为不同的ML工作分配资源预算以实现最佳性能和集群资源效率仍然是一个重大挑战。这项工作建议N Earchus加速分布式ML培训,同时通过使用自适应资源分配来确保高资源效率。n earchus自动确定跑步工作的潜在性能瓶颈,并重新分配资源,以提供高资源效率的优化运行时性能。n earchus的资源配置可显着提高个人工作的培训速度,最高71.4%–129.1%,对最先进的资源调度程序,并将工作完成和排队时间分别提高了35.6%和67.8%。索引术语 - 机器学习,云计算,资源虚拟化和管理

加速集装机器学习工作负载

加速集装机器学习工作负载PDF文件第1页

加速集装机器学习工作负载PDF文件第2页

加速集装机器学习工作负载PDF文件第3页

加速集装机器学习工作负载PDF文件第4页

加速集装机器学习工作负载PDF文件第5页

相关文件推荐