详细内容或原文请订阅后点击阅览
打破主机内存瓶颈:Peer Direct 如何改变 Gaudi 的云性能
使用 libfabric、DMA-BUF 和 HCCL 在云主机 NIC 上设计类似 RDMA 的性能,以恢复分布式训练可扩展性 文章《打破主机内存瓶颈:如何对等直接转变 Gaudi 的云性能》首先出现在《走向数据科学》上。
来源:走向数据科学将 Gaudi 加速器引入 Amazon 的 EC2 DL1 实例后,我们面临着威胁整个部署的挑战。性能数据不仅令人失望,而且令人失望。他们是灾难性的。需要有效训练的模型在跨多个节点扩展时性能下降高达 50%。问题?通过主机内存路由所有字节数据的网络拓扑,造成了瓶颈,破坏了 Gaudi 设计的一切。
我领导了工程工作来解决这个问题,最终开发了我们现在所说的 Peer Direct。这一功能改变了 Gaudi 加速器在云环境中的通信方式,其历史为大规模分布式人工智能训练提供了一些有用的经验教训。
主机网卡问题
Gaudi 的设计将 NIC(网络接口卡)直接嵌入到芯片中。每个芯片都有 10 个可以处理 100 Gbps 的网络接口,并支持 RoCE v2 的 RDMA,允许设备直接访问彼此的内存,而无需 CPU 或该架构对于 AI 训练工作负载非常高效,其中像 AllReduce 这样的集体操作需要在每次训练迭代中积累来自数十或数百台设备的梯度。
但云部署并不总是符合完美的架构。当 Amazon 测试 Gaudi 的 DL1 实例时,他们必须使用普通主机 NIC,而不是 Gaudi 的内置网络。原因很务实:节省成本以及围绕现有数据中心基础设施进行工作以适应新的网络拓扑的后勤工作。从他们的业务角度来看,利用现有的网络基础设施非常有意义。
性能缺陷非常严重,以至于有人质疑部署是否值得。这不是一个微不足道的优化问题;而是一个问题。这对与 AWS 的整个安排构成了生存威胁。
