能源消耗和散热 - AI div>的数据中心设计的主要因素

到2038年,每个Ai-Accelerator都需要15 kW的电力。

来源:OSP网站大数据新闻

根据韩国科学技术研究院研究人员联盟的预测,未来10年,人工智能加速器的每个模块的功耗将达到15千瓦。这将使现有数据中心冷却系统和电网超载,并且还需要对数据中心基础设施进行根本性改变。

发布的报告除其他外,还研究了显卡中高性能高带宽内存的扩展 - 从 2026 年的 HBM4 到 2038 年的 HBM8。人工智能工作负载,特别是大型语言模型和大型预训练基础模型,需要高内存带宽和计算性能。使用 16384 个 I/O 接口的 HBM8 内存将提供 64 TB/s 的速度。每个内存堆栈的容量可达240GB。

HBM的每一次新修改都提高了性能,但也对功耗和散热提出了更严格的要求。报告称,GPU 功率将从 2026 年的 800 W 增加到 2035 年的 1,200 W,与 32 个 HBM 内存堆栈(每个消耗 180 W)结合使用时,该模块的总功率可能达到 15.36 kW。

Counterpoint Research的专家称,能源消耗是人工智能发展的最大障碍,因为当从生成式人工智能转向基于代理的人工智能,再到复杂物理系统的人工智能建模时,对计算性能的要求呈指数级增长。

随着加速器消耗的功率增加到15 kW,传统的空气冷却变得无效。根据美国能源部的数据,冷却已占数据中心能源消耗的近 40%。