为什么容量规划又回来了 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为什么容量规划又回来了

2026年3月2日 13:19 33 Comments

在上一篇文章中，我们概述了为什么 GPU 已成为企业 AI 的架构控制点。当加速器容量成为主导约束时，云最令人欣慰的假设（即您可以按需扩展而无需考虑太远）就不再是事实。这种转变产生了直接的运营后果：容量规划又回来了。不是旧的 [...]

来源:O'Reilly Media _AI & ML

在上一篇文章中，我们概述了为什么 GPU 已成为企业 AI 的架构控制点。当加速器容量成为主导约束时，云最令人欣慰的假设（即您可以按需扩展而无需考虑太远）就不再是事实。

这种转变产生了直接的运营后果：容量规划又回来了。不是旧的“猜测明年的虚拟机数量”练习，而是一种新的规划形式，其中模型选择、推理深度和工作负载计时直接决定您是否可以满足延迟、成本和可靠性目标。

在人工智能塑造的基础设施世界中，“扩展”的程度并不等于“获得容量”的程度。自动缩放有一定的帮助，但它无法创建 GPU。电力、冷却和加速器供应设定了限制。

十年来，云采用培训组织脱离了多年规划。 CPU 和存储可以顺利扩展，并且大多数无状态服务在水平扩展下的行为是可预测的。团队可以将基础设施视为弹性基础并专注于软件迭代。

人工智能生产系统的行为方式并非如此。它们由加速器主导并受到物理限制的约束，这使得容量成为一阶设计依赖项，而不是采购细节。如果您无法在正确的时间获得正确的加速器容量，那么您的架构决策就无关紧要，因为系统根本无法以所需的吞吐量和延迟运行。

规划正在回归，因为人工智能强制沿着产品团队不能忽视的四个维度进行预测：

模型增长：即使用户流量持平，模型数量、版本流失和专业化也会增加加速器需求。

数据增长：检索深度、向量存储大小和新鲜度要求会增加每个请求的推理工作量。

推理深度：多级管道（检索、重新排序、工具调用、验证、综合）非线性地乘以 GPU 时间。

吞吐量所需的工作量运营后可预测的深度人工智能成为扩展基础设施一定的系统的为什么直接的可靠性虚拟机量规加速器控制点增长正确的工作负载推理限制的 GPU 模型容量专业化非线性规划