2,一份全面的行业报告观察到:“不断提高持续的效率不足以强调。例如,NVIDIA Corp.已开始专注于能源效率…使用2,000个Blackwell GPU培训最新的超大AI型号将在90天的培训中使用4 MW的功率,而同一时期的8,000 GPU,这将消耗15兆瓦的功率。”参见Aneesh Prabhu等。Data Centers: Surging Demand Will Benefit and Test the U.S. Power Sector , S&P G LOBAL (Oct. 22, 2024), at 18, available at https://www.spglobal.com/ratings/en/research/articles/241022-data-centers-surging-demand- will-benefit-and-test-the-u-s-power-sector-13280625.3,此分析从初始预测开始使用中期,第4至6年,因为这代表了对预测的资本投资开始实现的第一阶段。与NRG分析的其他要素一样,这代表了一种保守的方法,而进一步的外年预测将包含更大程度的复合误差。在第2节的这些评论的正文中描述了完整的分析。
结构变异(SV)是重大的基因组改变,在包括癌症在内的遗传多样性,进化和各种疾病中起着至关重要的作用。检测SVS的传统方法通常在计算效率,准确性和可扩展性方面面临挑战,尤其是在处理大型基因组数据时。近年来,图形处理单元(GPU)和机器学习(ML)的出现已经开发了解决这些挑战的新途径。本文探讨了GPU加速度和ML技术的整合,以增强结构变体的检测和分析。我们提出了一个全面的框架,该框架利用深度学习模型(用于在GPU上并行处理)以高精度实现实时SV检测。我们的方法不仅减轻了计算负担,而且还提高了与常规方法相比,SV检测的敏感性和特异性。通过在各种基因组数据集上进行广泛的基准测试,我们在速度,准确性和可扩展性方面证明了我们的GPU加速ML框架的出色性能。这些发现强调了将GPU和ML技术相结合以革新基因组研究的潜力,并为在临床和研究环境中更有效,更精确的结构变体分析铺平道路。
许多新的基于 AI 的产品和服务严重依赖云。AI 可能极其依赖计算,本地或边缘设备难以独立管理一切。因此,电力输送和电力效率已成为大型计算系统的关键问题。通过处理复杂 AI 功能的带有 ASIC 和 GPU 的处理器,该行业的功耗正在急剧增加。
NVIDIA EGX™ 平台使企业 IT 能够在高性能且经济高效的基础设施上提供完整的 AI 解决方案。该平台基于 NVIDIA 认证系统(由高性能 GPU 和高速、安全的 NVIDIA ® Mellanox ® 网络组成的企业级服务器)由我们的合作伙伴构建和销售。NVIDIA EGX 平台通过标准化单一统一架构以实现轻松的管理、部署、操作和监控,使客户能够为未来做好准备,同时降低成本。
摘要 — 大脑模拟是人工智能领域的最新进展之一,它有助于更好地理解信息在大脑中的表示和处理方式。人脑极其复杂,因此只有在高性能计算平台上才能进行大脑模拟。目前,具有大量互连图形处理单元 (GPU) 的超级计算机用于支持大脑模拟。因此,超级计算机中的高吞吐量低延迟 GPU 间通信对于满足大脑模拟这一高度时间敏感的应用的性能要求起着至关重要的作用。在本文中,我们首先概述了当前使用多 GPU 架构进行大脑模拟的并行化技术。然后,我们分析了大脑模拟通信面临的挑战,并总结了应对这些挑战的通信设计指南。此外,我们提出了一种分区算法和一种两级路由方法,以实现多 GPU 架构中用于大脑模拟的高效低延迟通信。我们报告了在一台拥有 2,000 个 GPU 的超级计算机上模拟具有 100 亿个神经元的大脑模型的实验结果,以表明我们的方法可以显著提高通信性能。我们还讨论了尚待解决的问题,并确定了大脑模拟低延迟通信设计的一些研究方向。
图3:Fugaku(Riken -2020)和Frontier(Ornl -2021)是两个最近安装的Exascale超级计算机,这些超级计算机说明了这些系统上硬件多样性的增加,包括处理器,互连,存储和I/O。由于使用GPU(21兆瓦与30兆瓦),Frontier更加有效,但预计将来系统的功耗将继续增加。与处理器和系统体系结构的变化同时
1 简介 人工智能领域的最新进展由 ChatGPT [ 18 ] 和 SORA [ 19 ] 等大型模型推动,带来了巨大的计算挑战。扩展这些模型通常需要多 GPU 或多节点系统 [ 2 , 14 ],利用张量并行等并行策略 [ 25 ] 来处理计算负载。例如,Llama 3.1-405B 模型训练使用了 16,000 个 H100 GPU [ 16 ]。然而,分布式计算引入了通信作为主要瓶颈,占执行时间的 80%,如 Llama 2-7B 模型所示 [ 1 ]。如 [ 3 ] 所示,将 Llama 2-13B [ 27 ] 训练从 8 个 GPU 扩展到 1,024 个 GPU 会因通信开销而将模型 FLOP 利用率 (MFU) 从 47% 大幅降低至 4%。这凸显了一个关键问题:尽管硬件功能有所进步,但由于引入了通信开销,硬件(尤其是 GPU)往往未得到充分利用。为了提高 MFU,先前的研究探索了通过通信 [ 20 、 22 、 28 、 30 ] 或数据加载 [ 9 ] 来提高硬件利用率的潜力。然而,这些策略主要侧重于重叠计算运算符和独立通信运算符。如果存在依赖关系(例如在推理阶段),则计算和通信都位于关键路径上,运算符间重叠是不可行的。认识到这一机会,我们引入了 DistFuse,这是一个即使在存在依赖关系的情况下也能促进细粒度重叠的系统。DistFuse 的核心旨在协调计算和通信,这样 GPU 就可以在部分数据准备就绪时立即启动通信,而不是等待整个数据。我们进行了一项概念验证实验,通过在单个节点上将 DistFuse 与 Llama 3-70B 的推理相结合来展示性能提升,该节点可以隐藏高达 44.3% 的通信延迟。我们目前的原型专注于 LLM 任务,但即时通信的核心概念是多功能的,可以应用于其他场景,例如卷积模型。鉴于数据中心中大型模型工作负载的日益普及以及对高效通信的需求不断增长,我们预计通过我们的技术将显着提高性能。此外,我们
计算系统的能力正与其试图理解的海量视觉数据展开一场“军备竞赛”。在自动驾驶、机器人视觉、智能家居、遥感、显微镜、监控、国防和物联网等一系列应用中,计算成像系统记录和处理大量人类无法看到的数据,而是由基于人工智能 (AI) 的算法进行解释。在这些应用中,深度神经网络 (DNN) 正迅速成为视觉数据处理的标准算法方法 1-3。这主要是因为 DNN 在所有领域都取得了最先进的结果,而且往往领先优势很大。深度学习的最新突破得益于现代图形处理单元 (GPU) 的巨大处理能力和并行性,以及海量视觉数据集的可用性,这些数据集使得 DNN 能够使用监督机器学习策略进行高效训练。然而,运行日益复杂的神经网络的高端 GPU 和其他加速器对功率和带宽的需求巨大;它们需要大量的处理时间和笨重的外形尺寸。这些限制使得在边缘设备(如摄像头、自动驾驶汽车、机器人或物联网外设)中采用 DNN 具有挑战性。以自动驾驶汽车中的视觉系统为例,它们必须使用有限的计算资源即时做出稳健的决策。高速行驶时,瞬间的决策可以决定生死。事实上,几乎所有边缘设备都会受益于更精简的计算成像系统,提供更低的延迟和尺寸、重量和功率的改进。DNN 的两个阶段(训练和推理)的计算要求非常不同。在训练阶段,DNN 被输入大量标记示例,并使用迭代方法,其参数针对特定任务进行优化。训练完成后,DNN 用于推理,其中某些输入数据(例如图像)在前馈过程中通过网络发送一次,以计算所需的结果。在某些应用中,GPU 用于推理,但由于上述原因,对于许多边缘设备而言,这是不切实际的。
摘要 大脑模拟作为人工智能领域的最新进展之一,有助于更好地理解信息在大脑中的表达和处理方式。人类大脑的极端复杂性使得大脑模拟只有在高性能计算平台上才可行。目前,用于支持大脑模拟的超级计算机具有大量互连的图形处理单元(GPU)。因此,超级计算机中的高吞吐量低延迟 GPU 间通信对于满足大脑模拟这一高度时间敏感的应用的性能要求起着至关重要的作用。在本文中,我们首先概述了当前使用多 GPU 架构进行大脑模拟的并行化技术。然后,我们分析了大脑模拟通信面临的挑战,并总结了应对这些挑战的通信设计指南。此外,我们提出了一种分区算法和一种两级路由方法,以实现多 GPU 架构中用于大脑模拟的高效低延迟通信。我们报告了在具有 2000 个 GPU 的超级计算机上模拟具有 100 亿个神经元的大脑模型(数字孪生大脑,DTB)的实验结果,以表明我们的方法可以显著提高通信性能。我们还讨论了尚待解决的问题,并确定了大脑模拟低延迟通信设计的一些研究方向。
ESG 评估了 NVIDIA DGX A100 AI 系统,重点关注该平台如何缩短洞察时间。NVIDIA DGX 是一个专门构建的 AI 平台,旨在支持分析、AI、训练和推理。NVIDIA DGX 是一个紧密集成的平台,具有针对 AI 优化的 GPU,为 AI 端到端构建。NVIDIA DGX A100 系统配备八个 NVIDIA GPU 和两个第二代 AMD EPYC 处理器。NVIDIA 和 Dell Technologies 合作设计和构建了一个高性能、一流的架构,可以利用 Dell EMC PowerScale 存储产品组合。各种规模的组织都可以在机架式服务器设备或塔式配置中将这种可扩展的数据中心技术部署到任何需要的地方。NVIDIA DGX 旨在实现从 AI 平台发布到模型创建再到优化的完整 AI 生命周期,并在节省时间、精力和金钱的同时实现即时生产力。 NVIDIA DGX 提供快速部署和开箱即用的生产力,将专用硬件与嵌入式工具和 AI 软件相结合,使组织能够从数据中提取价值和洞察力,而无需进行软件工程、系统集成或故障排除。这使组织能够在数小时内而不是数周内运行实验,并且性能可预测地扩展。