nvidia开发了一种将远程数据中心与AI负载相结合的技术 div>

EssEdum平台应基于AI可访问的实践,而不是独特的工程开发来制定网络解决方案。提供了用于以太网基础架构的专门软件协议,该协议提供了图形处理器之间长距离的数据传输。

来源:OSP网站大数据新闻

Nvidia 开发了 Spectrum-XGS 软件协议,该协议受到 Spectrum-X 交换机、SuperNIC ConnectX-8 网络适配器以及配备 Blackwell GPU 的系统的支持,并自动调节远距离网络的性能,允许安装在远程数据中心服务器中的 GPU 作为单个 AI 超级计算机协同工作。

XGS 协议分析实时遥测数据,包括数据中心之间的距离和流量模式、网络拥塞和性能。根据收到的信息,它们执行拥塞控制、路由和负载平衡,并最大限度地减少数据包传输时间的延迟和变化(抖动)。

Nvidia 表示,新协议将帮助那些由于规模和功耗相关的本地限制而被迫扩展数据中心网络的公司,从而导致共享 GPU 分布很远的距离。目前,Spectrum-XGS 正在相距数百公里的数据中心实施。

AI 工作负载通常分布在 GPU 之间,GPU 协调工作以产生单一结果。当它们执行时,自适应路由可确保网络和 GPU 的长距离同步。技术开发人员解释说,XGS 协议支持“细粒度的逐包自适应路由”,从而消除了数据丢失或深度缓冲来防止数据丢失的问题。

Nvidia 在服务器硬件上测试了 XGS 算法,公司代表表示,与现成的网络技术相比,GPU 之间的通信性能提高了 1.9 倍。