部署生成式 AI 应用程序或训练基础 AI 模型(例如 ChatGPT、BERT 或 DALL-E)可能需要大量计算,尤其是对于大型复杂模型而言。随着数据量和模型大小的增加,人们开始采用分布式计算来应对这一挑战。它通过将工作负载分布在多个互连的计算节点上来加速训练过程。具体而言,单个分布式任务的运行时间由最慢的参与节点的运行时间控制。网络在确保消息及时到达所有参与节点方面发挥着重要作用。这使得尾部延迟(最后一条参与消息的到达时间)至关重要,尤其是在大规模数据中心部署和存在竞争工作负载的情况下。此外,网络扩展和处理越来越多节点的能力对于训练大型 AI 模型和处理大量数据至关重要。