近年来,人工智能模型的计算密度和规模都快速增长,这推动了高效可靠的专用网络基础设施的建设。本文介绍了 Meta 用于分布式人工智能训练的融合以太网远程直接内存访问 (RoCE) 网络的设计、实现和运行。我们的设计原则涉及对工作负载的深入了解,并将这些见解转化为各种网络组件的设计:网络拓扑 - 为了支持一代又一代人工智能硬件平台的快速发展,我们将基于 GPU 的训练分离到其自己的“后端”网络中。路由 - 训练工作负载本质上会导致负载不平衡和突发性,因此我们部署了几次路由方案迭代以实现近乎最佳的流量分配。传输 - 我们概述了我们最初尝试使用 DCQCN 进行拥塞管理,但后来放弃 DCQCN 转而利用集体库本身来管理拥塞。运营 - 我们分享运营大型人工智能网络的经验,包括我们开发的工具和故障排除示例。
主要关键词