内存容量 32 个 DIMM 插槽,最高可达 8TB DDR4 内存 3200 MHz DIMM GPU 支持 8x A100 80GB SXM4 GPU,带有 NVLink
HGX H100系统中使用的NVIDIA H100 GPU具有变压器引擎,具有FP8 Precision,可为大型语言模型(例如GPT-3 175B)提供高达4倍的训练。The combination of fourth-generation NVLink, which offers 900GB/s of GPU-to-GPU interconnect, NVLink Switch System, which accelerates collective communication by every GPU across nodes, PCIe Gen5, and NVIDIA Magnum IO ™ software delivers efficient scalability, from small enterprises to massive, unified GPU clusters.这些基础架构与NVIDIA AI Enterprise Software Suite合作,使NVIDIA HGX H100成为最强大的端到端AI和HPC数据中心平台。
大规模 AI 训练需要尖端技术来最大限度地发挥 GPU 的并行计算能力,以处理数十亿甚至数万亿个 AI 模型参数,这些参数需要使用呈指数级增长的海量数据集进行训练。利用 NVIDIA 的 HGX™ H100 SXM 8-GPU/4-GPU 和最快的 NVLink™ 和 NVSwitch™ GPU-GPU 互连(带宽高达 900GB/s),以及最快的 1:1 网络到每个 GPU 进行节点集群,这些系统经过优化,可在最短的时间内从头开始训练大型语言模型。通过全闪存 NVMe 完成堆栈以实现更快的 AI 数据管道,我们提供带有液体冷却选项的完全集成机架,以确保快速部署和流畅的 AI 训练体验。
专为模拟、数据分析和 AI 的融合而构建 海量数据集、爆炸式增长的模型大小和复杂的模拟需要具有极快互连的多个 GPU。NVIDIA HGX™ 平台汇集了 NVIDIA GPU、NVIDIA ® NVLink ®、NVIDIA Mellanox ® InfiniBand ® 网络的全部功能,以及来自 NGC™ 的完全优化的 NVIDIA AI 和 HPC 软件堆栈,以提供最高的应用程序性能。凭借其端到端的性能和灵活性,NVIDIA HGX 使研究人员和科学家能够结合模拟、数据分析和 AI 来推动科学进步。
NVIDIA Blackwell体系结构引入了生成AI和加速计算的开创性进步。将第二代变压器引擎的结合与更快和更宽的NVIDIA NVLINK™互连一起,将数据中心推向了一个新时代,与以前的建筑生成相比,其性能更高。NVIDIA机密计算技术的进一步进步提高了实时LLM推论的安全性水平,而无需绩效妥协。和Blackwell的新型减压引擎以及Spark Rapids™库结合使用,将无与伦比的数据库性能传递到燃料数据分析应用程序。Blackwell的多个进步建立在几代加速计算技术的基础上,以定义具有无与伦比的性能,效率和规模的生成AI的下一章。
预计的性能可能会更改令牌到token的延迟(TTL)= 50毫秒(MS)实时GPT-3 175B:第一个令牌延迟(FTL)2s;输入序列长度= 2,048,输出序列长度= 128,4 HGX H100气冷400GB IB网络与2 GB200 SuperChips液体冷却NVLink;根据GPU性能比较,GPT-MOE-1.8T:FTL = 5s;输入序列长度= 32,768,输出序列长度= 1,024,8 HGX H100气冷400GB IB网络vs 18 GB200 SuperChips液体冷却NVL36;每GPU性能比较
A100 GPU 拥有 1.6 TB/s 的内存带宽,比上一代提升了 70% 以上。它还拥有更多片上内存,包括 40 MB 的二级缓存,几乎是上一代的 7 倍。DGX A100 还首次采用了第三代 NVIDIA ® NVLink ®,将 GPU 到 GPU 的直接带宽提高了一倍,达到 600 GB/s,几乎是 PCIe Gen 4 的 10 倍。这种前所未有的强大功能可以最快地解决问题,使用户能够应对以前不可能或不切实际的挑战,例如生成更快的风险计算或实现更高的欺诈检测率。
A100 80GB GPU 的 GPU 内存带宽比 A100 40GB GPU 增加了 30%,成为全球首款每秒 2 兆字节 (TB/s) 的 GPU。与上一代 NVIDIA GPU 相比,它的片上内存也显著增加,包括 40 兆字节 (MB) 的二级缓存,其容量几乎增加了 7 倍,从而最大程度地提高了计算性能。DGX A100 还首次推出了第三代 NVIDIA ® NVLink ®,将 GPU 到 GPU 的直接带宽提高了一倍,达到每秒 600 千兆字节 (GB/s),几乎比 PCIe Gen 4 高 10 倍,并且新的 NVIDIA NVSwitch ™ 比上一代快 2 倍。这种前所未有的强大功能可以最快地解决问题,使用户能够应对以前不可能或不切实际的挑战。
6开始使用Fabric Manager 13 6.1基本组件。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。13 6.1.1面料管理器服务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。13 6.1.2软件开发套件。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。13 6.2 NVSWWITCH和NVLINK初始化。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。13 6.3支持的平台。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 6.3.1硬件体系结构。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 6.3.2 NVIDIA服务器体系结构。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 6.3.3 OS环境。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 6.4支持的部署模型。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 6.5其他NVIDIA软件包。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。16 6.6安装。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。基于NVSWWITCH的DGX服务器系统上的16 6.6.1。。。。。。。。。。。。。。。。。。。。。。。。。。。。16 6.6.2在基于NVSWWITCH的NVIDIA HGX服务器系统上。。。。。。。。。。。。。。。。。。。。。16 6.7管理面料管理器服务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。17 6.7.1启动面料管理器。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。17 6.7.2停止面料管理器。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。17 6.7.3检查面料管理器状态。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 6.7.4启用Fabric Manager服务以自动启动。。。。。。。。。。。。。。。。。18 6.7.5禁用Fabric Manager服务自动启动在启动时。。。。。。。。。。。。。。。。。。18 6.7.6检查面料管理器系统日志消息。。。。。。。。。。。。。。。。。。。。。。。。18 6.8 Fabric Manager启动选项。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 6.9 Fabric Manager服务文件。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。基于Linux的系统上的19 6.9.1。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。19 6.10运行织物管理器作为非根。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。20 6.11 Fabric Manager配置选项。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 6.11.1记录相关的配置项目。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 6.11.1.1设置日志文件位置和名称。。。。。。。。。。。。。。。。。。。。。。。。。21 6.11.1.2设置所需的日志级别。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 6.11.1.3设置日志文件附加行为。。。。。。。。。。。。。。。。。。。。。。。。。。。。。22 6.11.1.4设置日志文件大小。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。22 6.11.1.5将日志重定向到Syslog。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。22 6.11.1.6旋转设置。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。22 6.11.2操作模式相关的配置项目。。。。。。。。。。。。。。。。。。。。。。。。。。。。。23