infiniband vs rocev2：为大规模AI选择正确的网络 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

infiniband vs rocev2：为大规模AI选择正确的网络

2025年8月6日 18:57 33 Comments

了解Infiniband和Rocev2如何启用高速GPU通信Infiniband vs Rocev2：选择合适的大型AI网络首先出现在数据科学方面。

来源:走向数据科学

GPU是AI的基本计算引擎。但是，在大规模培训环境中，整体性能不受处理速度的限制，而是受其之间网络通信的速度的限制。

大型语言模型接受了数千种GPU的培训，这会产生大量的跨GPU流量。在这些系统中，即使是最小的延迟化合物。当GPU共享数据时，微秒滞后会导致链反应，从而增加培训工作数小时。因此，这些系统需要一个专门的网络，该网络旨在以最小的延迟传输大量数据。

通过CPU路由GPU数据的传统方法在大规模上产生了严重的瓶颈。为了修复这种瓶颈，发明了诸如RDMA和GPUDIRECT之类的技术，从本质上讲是在CPU周围建立旁路。这为GPU提供了直接的途径，可以彼此交谈。

此直接通信方法需要一个可以处理速度的网络。今天提供的两个主要选择是Infiniband和Rocev2。

那么，您如何在Infiniband和Rocev2之间进行选择？这很重要，迫使您平衡原始速度与预算以及您愿意进行多少动手调整。

让我们仔细研究每种技术，以了解其优点和劣势。

在比较Infiniband和Rocev2之前，让我们首先了解传统沟通的工作原理，并引入一些基本概念，例如RDMA和GPU Direct。

传统通信在传统系统中，机器之间的大多数数据流动都是由CPU处理的。当GPU完成计算并需要将数据发送到远程节点时，它遵循以下步骤 -

传统交流

以CPU为中心的通信（来源：作者）

GPU将数据写入系统（主机）内存

CPU将数据副本副本副本复制到网络卡使用的缓冲区

NIC（网络接口卡）通过网络发送数据

在接收节点上，NIC将数据传递到CPU

rdma

共享数据培训通信的了解 Infiniband RDMA 整体性化合物数据发送 NIC 传统方法网络接口直接的处理速度速度的大量的严重的缓冲区 GPU 数据瓶颈 Rocev2 数据流传统专门的基本计算 CPU 基本概念使用的副本系统中心的最小的网络通信大规模需要数据传递网络工作原理