近年来,人工智能模型的计算密度和规模都快速增长,这推动了高效可靠的专用网络基础设施的建设。本文介绍了 Meta 用于分布式人工智能训练的融合以太网远程直接内存访问 (RoCE) 网络的设计、实现和运行。我们的设计原则涉及对工作负载的深入了解,并将这些见解转化为各种网络组件的设计:网络拓扑 - 为了支持一代又一代人工智能硬件平台的快速发展,我们将基于 GPU 的训练分离到其自己的“后端”网络中。路由 - 训练工作负载本质上会导致负载不平衡和突发性,因此我们部署了几次路由方案迭代以实现近乎最佳的流量分配。传输 - 我们概述了我们最初尝试使用 DCQCN 进行拥塞管理,但后来放弃 DCQCN 转而利用集体库本身来管理拥塞。运营 - 我们分享运营大型人工智能网络的经验,包括我们开发的工具和故障排除示例。
现代 AI 应用程序需要高带宽、无损、低延迟、可扩展、多租户网络,该网络可以以 100Gbps、200 Gbps、400Gbps、800Gbps 及更高的速度互连数百和数千个 GPU。Arista EOS Ⓡ(可扩展操作系统)提供了实现优质无损、高带宽、低延迟网络所需的所有工具。EOS 支持流量管理配置、可调整的缓冲区分配方案以及使用 PFC 和 DCQCN 来支持 RoCE 部署。如果无法了解网络缓冲区利用率,则配置适当的 PFC 和 ECN 阈值可能会很困难。Arista EOS 提供了一种称为延迟分析器 (LANZ) 的简单解决方案,它可以通过实时报告跟踪接口拥塞和排队延迟。这有助于将应用程序的性能与网络拥塞事件关联起来,从而可以最佳地配置 PFC 和 ECN 值以最适合应用程序的要求。