详细内容或原文请订阅后点击阅览
infiniband vs rocev2:为大规模AI选择正确的网络
了解Infiniband和Rocev2如何启用高速GPU通信Infiniband vs Rocev2:选择合适的大型AI网络首先出现在数据科学方面。
来源:走向数据科学GPU是AI的基本计算引擎。但是,在大规模培训环境中,整体性能不受处理速度的限制,而是受其之间网络通信的速度的限制。
大型语言模型接受了数千种GPU的培训,这会产生大量的跨GPU流量。在这些系统中,即使是最小的延迟化合物。当GPU共享数据时,微秒滞后会导致链反应,从而增加培训工作数小时。因此,这些系统需要一个专门的网络,该网络旨在以最小的延迟传输大量数据。
通过CPU路由GPU数据的传统方法在大规模上产生了严重的瓶颈。为了修复这种瓶颈,发明了诸如RDMA和GPUDIRECT之类的技术,从本质上讲是在CPU周围建立旁路。这为GPU提供了直接的途径,可以彼此交谈。
此直接通信方法需要一个可以处理速度的网络。今天提供的两个主要选择是Infiniband和Rocev2。
那么,您如何在Infiniband和Rocev2之间进行选择?这很重要,迫使您平衡原始速度与预算以及您愿意进行多少动手调整。
让我们仔细研究每种技术,以了解其优点和劣势。
基本概念
在比较Infiniband和Rocev2之前,让我们首先了解传统沟通的工作原理,并引入一些基本概念,例如RDMA和GPU Direct。
传统通信在传统系统中,机器之间的大多数数据流动都是由CPU处理的。当GPU完成计算并需要将数据发送到远程节点时,它遵循以下步骤 -
传统交流