为什么容量规划又回来了

在上一篇文章中,我们概述了为什么 GPU 已成为企业 AI 的架构控制点。当加速器容量成为主导约束时,云最令人欣慰的假设(即您可以按需扩展而无需考虑太远)就不再是事实。这种转变产生了直接的运营后果:容量规划又回来了。不是旧的 [...]

来源:O'Reilly Media _AI & ML

在上一篇文章中,我们概述了为什么 GPU 已成为企业 AI 的架构控制点。当加速器容量成为主导约束时,云最令人欣慰的假设(即您可以按需扩展而无需考虑太远)就不再是事实。

这种转变产生了直接的运营后果:容量规划又回来了。不是旧的“猜测明年的虚拟机数量”练习,而是一种新的规划形式,其中模型选择、推理深度和工作负载计时直接决定您是否可以满足延迟、成本和可靠性目标。

在人工智能塑造的基础设施世界中,“扩展”的程度并不等于“获得容量”的程度。自动缩放有一定的帮助,但它无法创建 GPU。电力、冷却和加速器供应设定了限制。

容量规划回归

十年来,云采用培训组织脱离了多年规划。 CPU 和存储可以顺利扩展,并且大多数无状态服务在水平扩展下的行为是可预测的。团队可以将基础设施视为弹性基础并专注于软件迭代。

人工智能生产系统的行为方式并非如此。它们由加速器主导并受到物理限制的约束,这使得容量成为一阶设计依赖项,而不是采购细节。如果您无法在正确的时间获得正确的加速器容量,那么您的架构决策就无关紧要,因为系统根本无法以所需的吞吐量和延迟运行。

规划正在回归,因为人工智能强制沿着产品团队不能忽视的四个维度进行预测:

  • 模型增长:即使用户流量持平,模型数量、版本流失和专业化也会增加加速器需求。
  • 数据增长:检索深度、向量存储大小和新鲜度要求会增加每个请求的推理工作量。
  • 推理深度:多级管道(检索、重新排序、工具调用、验证、综合)非线性地乘以 GPU 时间。
  • 云的旧承诺正在打破