当 GPU 利用率谎言时:隐藏的系统问题拖慢现代人工智能

为什么“平均利用率”取决于 GPU 的实际利用率这篇文章《当 GPU 利用率存在时:拖慢现代人工智能速度的隐藏系统问题》首先出现在《走向数据科学》上。

来源:走向数据科学

团队收到 ping 通知,因为推理延迟突然增加了 60%。仪表板很混乱。 GPU 利用率看起来仍然健康:

没有出现任何灾难性的错误。自动缩放开始生效。添加了更多节点。云费用不断攀升。延迟几乎没有改善。

一小时后,真正的问题出人意料地平凡:三个节点悄悄进入降级的 RAID 重建状态,将存储吞吐量降低到附近推理工作负载严重不足的程度。调度程序仍然将这些节点视为“足够健康”,因为 GPU 和内存指标看起来可以接受。简而言之,这些计算机上的一个存储驱动器发生故障或变得不可靠,而服务器正忙于在其余驱动器上重建丢失的数据。从技术上讲,这些机器仍然在线。他们还没有“死亡”到足以被退役的程度。但他们的磁盘性能严重下降

这种故障在现代人工智能基础设施中变得越来越常见。它暴露了隐藏在许多 GenAI 系统之下的更深层次的错觉:

GPU 可能很忙,但效率却很低。

这种区别听起来很微妙。从经济上来说,这可能意味着数百万美元。

现代人工智能系统从外面看起来很光滑。用户向 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Google 的 Gemini 发送提示,几秒钟后就会得到完美的答案。在这种经验的背后是一个巨大的协调问题。

GPU 执行张量运算。 CPU 提供请求并移动数据。 HBM 存储激活和 KV 缓存。 SSD 流嵌入和检索上下文。网络在节点之间打乱梯度并推理流量。存储系统承担重建、重试和后台工作。

在这一切中间的某个地方,调度程序决定工作负载应该在哪里运行。该调度程序悄悄地确定集群的行为是否像一个连贯的计算系统或一个昂贵的交通拥堵。

利用错觉

碎片:看不见的故障模式

  • 中等 GPU,
  • 中等 HBM,
  • 备用 GPU,