infiniband vs rocev2:为大规模AI选择正确的网络

了解Infiniband和Rocev2如何启用高速GPU通信Infiniband vs Rocev2:选择合适的大型AI网络首先出现在数据科学方面。

来源:走向数据科学

GPU是AI的基本计算引擎。但是,在大规模培训环境中,整体性能不受处理速度的限制,而是受其之间网络通信的速度的限制。

大型语言模型接受了数千种GPU的培训,这会产生大量的跨GPU流量。在这些系统中,即使是最小的延迟化合物。当GPU共享数据时,微秒滞后会导致链反应,从而增加培训工作数小时。因此,这些系统需要一个专门的网络,该网络旨在以最小的延迟传输大量数据。

通过CPU路由GPU数据的传统方法在大规模上产生了严重的瓶颈。为了修复这种瓶颈,发明了诸如RDMA和GPUDIRECT之类的技术,从本质上讲是在CPU周围建立旁路。这为GPU提供了直接的途径,可以彼此交谈。

此直接通信方法需要一个可以处理速度的网络。今天提供的两个主要选择是Infiniband和Rocev2。

那么,您如何在Infiniband和Rocev2之间进行选择?这很重要,迫使您平衡原始速度与预算以及您愿意进行多少动手调整。

让我们仔细研究每种技术,以了解其优点和劣势。

基本概念

在比较Infiniband和Rocev2之前,让我们首先了解传统沟通的工作原理,并引入一些基本概念,例如RDMA和GPU Direct。

传统通信在传统系统中,机器之间的大多数数据流动都是由CPU处理的。当GPU完成计算并需要将数据发送到远程节点时,它遵循以下步骤 -

传统交流
以CPU为中心的通信(来源:作者)
  • GPU将数据写入系统(主机)内存
  • CPU将数据副本副本副本复制到网络卡使用的缓冲区
  • NIC(网络接口卡)通过网络发送数据
  • 在接收节点上,NIC将数据传递到CPU
  • rdma