详细内容或原文请订阅后点击阅览
OpenAI 131,000-GPU 训练结构背后的违反直觉的网络决策
对 MRC 的三个反直觉设计决策、使它们发挥作用的网络数学以及它们对 AI 基础设施社区其他成员的意义进行了批判性分析。OpenAI 131,000-GPU 训练结构背后的反直觉网络决策一文首先出现在《走向数据科学》上。
来源:走向数据科学。接受故意丢包的情况。将每次传输喷射到数百条随机路径上。如果有人给你这个连接 131,000 个 GPU 的网络的设计决策列表,你会认为它是由从未操作过生产网络的人编写的。
由 OpenAI、AMD、Broadcom、英特尔、微软和 NVIDIA 组成的联盟正是构建了这个,并悄然颠覆了三十年来关于高性能数据中心网络应如何工作的共识。
该协议称为 MRC,是多路径可靠连接的缩写。它于 2026 年 5 月 5 日通过开放计算项目发布。随附的研究论文(Araujo 等人,2026)详细介绍了其在 OpenAI 最大的 NVIDIA GB200 超级计算机上的部署,包括位于德克萨斯州阿比林的带有 Oracle 云基础设施的 Stargate 站点和微软的 Fairwater 超级计算机。 MRC 已用于训练 ChatGPT 和 Codex 背后的最新前沿模型。
仔细阅读本文,最引人注目的是新闻报道中未提及的内容:MRC 有效地从数据中心结构中消除了整个第 3 层控制平面。没有 OSPF。没有 BGP。没有IS-IS。没有 FIB。部署中的交换机保持零动态转发状态。据作者所知,这是迄今为止公开记录的任何生产 AI 训练结构中对动态路由最积极的消除。
论文的核心论点是,在超过 100,000 个 GPU 的规模下,网络拥塞和故障导致的尾部延迟主导着训练性能,如果不从根本上改变数据包在 GPU 之间的移动方式,传统的网络堆栈就无法解决这个问题。 MRC 是这些根本性的变化,在来自三个不同芯片供应商的 800 Gb/s NIC 中实施并部署在生产中。
问题:一个掉队者阻塞了 100,000 个 GPU
拓扑:两个交换机层中有 131,000 个 GPU
本文量化了节省的费用:
