摘要:人工智能(AI)工作量的计算需求不断增长,已大大升级了数据中心的能源消耗。AI驱动的应用程序,包括深度学习,自然语言处理和自主系统,都需要实质性的计算能力,主要由图形处理单元提供。这些GPU在提高计算效率的同时,有助于大量的功耗和热量产生,因此需要采取先进的冷却策略。本研究提供了对AI特异性硬件功率使用的定量评估,重点是NVIDIA H100 GPU。该分析将AI数据中心的能源消耗与美国普通家庭用力进行了比较,这表明单个AI机架的消耗大约是典型家庭能量的39倍。此外,一项可伸缩性分析估计,大约87个新的超尺度数据中心消耗了纽约市消耗的电力。这强调,随着AI数据中心的快速增长,大规模的部署可能导致全球能源需求前所未有的增长。此外,该研究还评估了耗散热量对冷却需求的影响,强调了对节能冷却溶液的需求,包括液体和浸入冷却技术。未来的研究方向包括节能AI模型,可再生能源整合,可持续的AI加速器设计以及智能的工作负载优化,以减轻大规模AI采用的环境影响。I.但是,量化AI硬件的功率和冷却需求的研究仍然有限。本研究为设计更可持续的AI驱动数据中心提供了关键见解,同时保持高性能计算效率。关键字:AI数据中心,功耗,耗散耗散,能效,数据中心冷却,GPU计算,城市能源影响,可持续性AI,高性能计算,高尺度基础架构,热量管理,工作负载,优化,碳足迹减少,可再生能源能源整合,可再生能源整合,AI ACELERASTOR,AI ACCELERARSTORSRATOR,AI ACCELERARSTORS。简介人工智能(AI)和机器学习(ML)应用具有重塑行业,需要高性能计算基础架构。AI培训模型的指数增长导致数据中心内能耗的前所未有。根据国际能源机构2023年的一份报告[1],数据中心占全球电力需求的近1%,预计AI工作量将大大增加这一份额。科技巨头,例如Google,Amazon和Microsoft,正在积极投资于AI特异性芯片并优化数据中心冷却以减轻能源足迹。这项研究提供了对AI特异性硬件(尤其是NVIDIA H100 GPU)中功率使用情况的定量评估,并评估了其对城市能源基础设施的影响。随着AI数据中心的扩展,对电网的影响成为主要问题。本研究的目的是:•比较AI基础设施的电力使用与家庭用电量。•评估AI数据中心的可伸缩性和可持续性。•分析散热和冷却要求。II。II。关键术语的定义A.功率和能量功率(P):功率是数据中心中的机架或电气设备消耗能量的速率。就像每时刻消耗的能量量
本新闻稿中的某些声明包括但不限于以下声明:NVIDIA 产品和技术的优势、影响、性能、特性和可用性,包括 NVIDIA AI Enterprise 软件平台、NVIDIA NIM 推理微服务、NVIDIA Spectrum-X 以太网网络、NVIDIA L40S、NVIDIA H100 NVL Tensor Core GPU、NVIDIA GH200 NVL2 平台、NVIDIA Quantum InfiniBand 和 NVIDIA Spectrum 以太网交换机;NVIDIA 扩大与 HPE 的合作伙伴关系的优势和影响,以及其服务和产品的特性和可用性;第三方使用或采用 NVIDIA 产品或技术及其优势;在各行各业竞相加入工业革命之际,生成式 AI 和加速计算正在推动根本性转变;以及 NVIDIA 和 HPE 将整个 NVIDIA AI 计算堆栈与 HPE 的私有云技术相结合,为企业客户和 AI 专业人士提供最先进的计算基础设施和服务,以拓展 AI 的前沿,这些前瞻性陈述受风险和不确定性的影响,可能导致结果与预期存在重大差异。可能导致实际结果大不相同的重要因素包括:全球经济状况;NVIDIA 对第三方制造、组装、包装和测试其产品的依赖;技术发展和竞争的影响;新产品和技术的开发或 NVIDIA 现有产品和技术的增强;市场对 NVIDIA 产品或其合作伙伴产品的接受度;设计、制造或软件缺陷;消费者偏好或需求的变化;行业标准和接口的变化;NVIDIA 产品或技术集成到系统中时意外的性能损失;以及 NVIDIA 向美国证券交易委员会 (SEC) 提交的最新报告中不时详述的其他因素,包括但不限于其 10-K 表年度报告和 10-Q 表季度报告。提交给 SEC 的报告副本发布在公司网站上,可从 NVIDIA 免费获取。这些前瞻性声明并非未来业绩的保证,仅代表截至本文日期的观点,除法律要求外,NVIDIA 不承担更新这些前瞻性声明以反映未来事件或情况的任何义务。
1 简介 人工智能领域的最新进展由 ChatGPT [ 18 ] 和 SORA [ 19 ] 等大型模型推动,带来了巨大的计算挑战。扩展这些模型通常需要多 GPU 或多节点系统 [ 2 , 14 ],利用张量并行等并行策略 [ 25 ] 来处理计算负载。例如,Llama 3.1-405B 模型训练使用了 16,000 个 H100 GPU [ 16 ]。然而,分布式计算引入了通信作为主要瓶颈,占执行时间的 80%,如 Llama 2-7B 模型所示 [ 1 ]。如 [ 3 ] 所示,将 Llama 2-13B [ 27 ] 训练从 8 个 GPU 扩展到 1,024 个 GPU 会因通信开销而将模型 FLOP 利用率 (MFU) 从 47% 大幅降低至 4%。这凸显了一个关键问题:尽管硬件功能有所进步,但由于引入了通信开销,硬件(尤其是 GPU)往往未得到充分利用。为了提高 MFU,先前的研究探索了通过通信 [ 20 、 22 、 28 、 30 ] 或数据加载 [ 9 ] 来提高硬件利用率的潜力。然而,这些策略主要侧重于重叠计算运算符和独立通信运算符。如果存在依赖关系(例如在推理阶段),则计算和通信都位于关键路径上,运算符间重叠是不可行的。认识到这一机会,我们引入了 DistFuse,这是一个即使在存在依赖关系的情况下也能促进细粒度重叠的系统。DistFuse 的核心旨在协调计算和通信,这样 GPU 就可以在部分数据准备就绪时立即启动通信,而不是等待整个数据。我们进行了一项概念验证实验,通过在单个节点上将 DistFuse 与 Llama 3-70B 的推理相结合来展示性能提升,该节点可以隐藏高达 44.3% 的通信延迟。我们目前的原型专注于 LLM 任务,但即时通信的核心概念是多功能的,可以应用于其他场景,例如卷积模型。鉴于数据中心中大型模型工作负载的日益普及以及对高效通信的需求不断增长,我们预计通过我们的技术将显着提高性能。此外,我们
AI 工作负载分为两大类:训练和推理。训练工作负载用于训练 AI 模型,例如大型语言模型 (LLM)。我们在本文中提到的训练工作负载类型是大规模分布式训练(大量机器并行运行 6 ),因为它给当今的数据中心带来了挑战。这些工作负载需要将大量数据输入到带有处理器(称为加速器)的专用服务器。图形处理单元 (GPU) 就是加速器 7 的一个例子。加速器在执行并行处理任务方面非常高效,例如用于训练 LLM 的任务。除了服务器之外,训练还需要数据存储和网络来将它们连接在一起。这些元素被组装成一个机架阵列,称为 AI 集群,该集群本质上将模型训练为一台计算机。在设计良好的 AI 集群中,加速器的利用率在大部分训练持续时间内接近 100%,训练时间从几小时到几个月不等。这意味着训练集群的平均功耗几乎等于其峰值功耗(峰值与均值比 ≈ 1)。模型越大,所需的加速器就越多。大型 AI 集群的机架密度从 30 kW 到 100 kW 不等,具体取决于 GPU 型号和数量。集群可以从几个机架到数百个机架不等,通常通过使用的加速器数量来描述。例如,一个 22,000 H100 GPU 集群使用大约 700 个机架,需要大约 31 MW 的电力,平均机架密度为 44 kW。请注意,此功率不包括冷却等物理基础设施要求。最后,训练工作负载将模型保存为“检查点”。如果集群发生故障或断电,它可以从中断的地方继续。推理意味着将之前训练的模型投入生产以预测新查询(输入)的输出。从用户的角度来看,输出的准确性和推理时间(即延迟)之间存在权衡。如果我是一名科学家,我可能愿意支付额外费用并在查询之间等待更长时间,以获得高度准确的输出。另一方面,如果我是一名正在寻找写作灵感的文案撰稿人,我想要一个可以立即回答问题的免费聊天机器人。简而言之,业务需求决定了推理模型的大小,但很少使用完整的原始训练模型。相反,部署模型的轻量级版本以减少推理时间,同时降低准确性。推理工作负载倾向于对大型模型使用加速器,并且根据应用程序的不同,可能还严重依赖 CPU。自动驾驶汽车、推荐引擎和 ChatGPT 等应用程序可能都有不同的 IT 堆栈,以“调整”其需求。根据模型的大小,每个实例的硬件要求可以从边缘设备(例如,智能手机)到几台服务器机架。这意味着机架密度可以从几台
