详细内容或原文请订阅后点击阅览
在 OpenAI 的支持下,开发了用于 AI 集群的网络协议
MRC 协议将流量分配到数百个通道,以消除 AI 网络中的拥塞。
来源:OSP网站大数据新闻OpenAI 领导的由 AMD、博通、英特尔、微软和 Nvidia 等科技巨头组成的联盟推出了一种新的网络协议,旨在解决因支持人工智能应用程序所需的大量数据而日益加剧的网络拥塞问题。
多路径可靠连接 (MRC) 协议旨在在超过 10 万个 GPU 上进行模型训练期间传输数据。 MRC 将流量分配到数百个网络链路,而不是多个容易拥塞的路由。该项目由开放计算项目 (OCP) 联盟协调,MRC 协议规范和随附文章使用 MRC 和 SRv6 的弹性 AI 超级计算机网络已于 2026 年 5 月 8 日在官方联盟存储库中发布。
Nvidia 以其 Spectrum-X 以太网交换平台参与 MRC 工作。该公司表示,它已经在全球最大的集群(包括 OpenAI 集群)中使用新协议进行 AI 生产训练,并训练 ChatGPT 和 Codex 等先进的 LLM 模型。 Spectrum-X 还用于 Microsoft Fairwater 和 Oracle Cloud Infrastructure Abilene 数据中心,这是两个最大的人工智能工厂,旨在训练和部署高级大型语言模型。
MRC 通过平衡所有可用路径上的通信负载来确保最有效地使用 GPU。为了避免过载,流量会实时动态地重新分配。
MRC 有助于在训练期间保持 GPU 以最大容量运行,尽管网络速度减慢、拥塞、崩溃以及其他通常会中断或减慢训练的问题。管理员有机会详细监视和控制流量路径,并使用简单的单一界面对其进行管理。
