Loading...
机构名称:
¥ 1.0

大规模人工智能系统是现代在线服务的基础。随着世界从新冠肺炎疫情中恢复,人们对人工智能驱动的在线服务的依赖日益加深。然而,当今的网络难以满足新兴人工智能工作负载带来的高带宽、低端到端延迟和高可用性要求。例如,机器学习 (ML) 应用的爆炸式增长对分布式训练产生了巨大的需求。硬件加速器(如 GPU 和 TPU)大大提高了计算能力,但当今的深度神经网络 (DNN) 仍需要数天甚至数周的时间才能完成训练。许多因素都会影响大型 DNN 作业的训练时间,包括并行化策略、模型/数据大小、软件库和互连网络。因此,人们提出了大量框架来有效地在当今的数据中心中分发和训练 DNN 模型 [1–4]。然而,当今的系统往往只优化计算和通信维度。因此,共同优化网络拓扑以及计算和通信维度对加速 DNN 训练的影响在很大程度上被忽略了。本文主张将网络拓扑重新配置为额外的加速维度,以跨计算、通信和拓扑维度联合优化 DNN 训练作业。为数据中心流量重新配置网络拓扑是网络和光学社区的一个热门话题。多篇学术论文展示了基于光可重构电路交换机的互连对数据中心工作负载的好处 [5, 6]。然而,之前的工作仅考虑将光互连用于通用数据中心流量,例如网络搜索、存储和云。本文没有关注通用数据中心工作负载,而是将注意力转向分布式 ML 工作负载,并认为可重构光互连是构建下一代 ML 数据中心的一个有吸引力的解决方案。为此,有三个挑战需要解决。

人工智能系统的新兴光学互连 - 人员

人工智能系统的新兴光学互连 - 人员PDF文件第1页

人工智能系统的新兴光学互连 - 人员PDF文件第2页

人工智能系统的新兴光学互连 - 人员PDF文件第3页

相关文件推荐