A100 80GB GPU 的 GPU 内存带宽比 A100 40GB GPU 增加了 30%,成为全球首款每秒 2 兆字节 (TB/s) 的 GPU。与上一代 NVIDIA GPU 相比,它的片上内存也显著增加,包括 40 兆字节 (MB) 的二级缓存,其容量几乎增加了 7 倍,从而最大程度地提高了计算性能。DGX A100 还首次推出了第三代 NVIDIA ® NVLink ®,将 GPU 到 GPU 的直接带宽提高了一倍,达到每秒 600 千兆字节 (GB/s),几乎比 PCIe Gen 4 高 10 倍,并且新的 NVIDIA NVSwitch ™ 比上一代快 2 倍。这种前所未有的强大功能可以最快地解决问题,使用户能够应对以前不可能或不切实际的挑战。
4. 通过 ssh 进入头节点并粘贴复制的 wget 代码以下载 CLI 二进制文件。admin@basepod-head1:~# wget --content-disposition https://basepod-nvidia-runai.runai- poc.com/cli/linux --2023-01-20 12:51:44-- https://basepod-nvidia-runai.runai-poc.com/cli/linux Resolving basepod-nvidia-runai.runai-poc.com (basepod-nvidia-runai.runai-poc.com)... 10.130.122.9 Connecting to basepod-nvidia-runai.runai-poc.com (basepod-nvidia-runai.runai- poc.com)|10.130.122.9|:443... Connected. HTTP 请求已发送,等待响应... 200 OK 长度:未指定 [application/octet-stream] 保存到:'runai' runai [ <=> ] 61.15M 30.2MB/s 在 2.0 秒内 2023-01-20 12:51:46 (30.2 MB/s) - 'runai' 已保存 [64118773] 5. 将二进制文件的权限更改为执行。
NVIDIA DGX™ A100 基于全新的 NVIDIA A100 Tensor Core GPU 构建,是第三代 DGX 系统。DGX A100 具有 5 petaFLOPS 的 AI 性能,在所有 AI 工作负载(分析、训练和推理)上均表现出色,使组织能够在单个系统上实现标准化,该系统可以快速完成任何类型的 AI 任务,并动态调整以适应随时间变化的计算需求。凭借所有 DGX 系统中最快的 I/O 架构,NVIDIA DGX A100 是大型 AI 集群(例如 NVIDIA DGX SuperPOD)的基础构建块,这是可扩展 AI 基础架构的企业蓝图,可扩展到数百或数千个节点以应对最大的挑战。这种无与伦比的灵活性降低了成本,提高了可扩展性,并使 DGX A100 成为 AI 基础架构的通用系统。
4初始设置15 4.1连接到DGX系统。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 4.2第一个引导设置向导。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 4.2.1 DGX服务器的第一个引导过程。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。16 4.2.2 DGX站的第一个引导过程。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。17 4.3智力后任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。19 4.3.1执行DGX服务器的软件包更新。。。。。。。。。。。。。。。。。。。。。。。。19 4.3.1.1将DOCA驱动程序添加到DGX服务器。。。。。。。。。。。。。。。。。。。。。。。。。19 4.3.1.2更新剩余的驱动程序和软件包。。。。。。。。。。。。。。。。。。。。。。。。。19 4.3.1.3准备DGX服务器以进行将来的更新。。。。。。。。。。。。。。。。。。。。。。。20 4.3.1.4验证DGX OS 7.0.1更新。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。20 4.3.2执行DGX站的包装更新。。。。。。。。。。。。。。。。。。。。。。。20 4.3.3向DGX站添加支持其他语言的支持。。。。。。。。。。。。。。20 4.3.4配置DGX站。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 4.3.5使多个用户能够远程访问DGX系统。。。。。。。。。。。。。。22
1 NVIDIA DGX H100/H200 系统简介 3 1.1 硬件概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1.5 使用锁定电源线. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.7.1 带挡板 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.9 主板连接和控制. . . . . . . . . . . . . . . 10 1.1.10 主板托盘组件. . . . . . . . . . . . . . . . 10 1.1.11 GPU 托盘组件. . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2 网络连接、电缆和适配器 . . . . . . . . . . . . . . . 12 1.2.1 网络端口 . . . . . . . . . . . . . . . . . . . . 12 1.2.2 计算和存储网络 . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.3 网络模块. . . . . . . . . . . . . . . . . . . . 14 1.2.4 BMC 端口 LED . . . . . . . . . . . . . . . . . . 15 1.2.5 支持的网络电缆和适配器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................................................................................................... 16 1.5 客户支持 . .................................................................................................................................... 17
随着深度学习网络和训练数据的复杂性呈指数级增长,人工智能研究人员的计算需求也不断增加。过去的训练仅限于一台或几台 GPU,通常是在工作站中进行。如今的训练通常使用数十台、数百台甚至数千台 GPU 来评估和优化不同的模型配置和参数。此外,组织中有多名人工智能研究人员,他们都需要同时训练多个模型。这种大规模的系统对人工智能研究人员来说可能很新奇,但这些装置一直是世界上最重要的研究机构和学术界的标志,推动了几乎所有类型的科学研究的创新。
企业内部 AI 的使用案例数量(包括语言建模、网络安全、自主系统和医疗保健等)持续快速增长。不仅使用案例数量在增长,模型复杂性和数据源也在增长。处理、训练和服务这些下一代模型所需的系统也必须增长。训练模型通常使用数十个 GPU 来评估和优化不同的模型配置和参数。对于这些新的工作负载,所有 GPU 都必须能够轻松访问训练数据。此外,组织有许多 AI 研究人员必须同时训练多个模型。企业需要灵活性,以便多个开发人员和研究人员在完善 AI 堆栈并将其投入生产时共享这些资源。
A100 GPU 拥有 1.6 TB/s 的内存带宽,比上一代提升了 70% 以上。它还拥有更多片上内存,包括 40 MB 的二级缓存,几乎是上一代的 7 倍。DGX A100 还首次采用了第三代 NVIDIA ® NVLink ®,将 GPU 到 GPU 的直接带宽提高了一倍,达到 600 GB/s,几乎是 PCIe Gen 4 的 10 倍。这种前所未有的强大功能可以最快地解决问题,使用户能够应对以前不可能或不切实际的挑战,例如生成更快的风险计算或实现更高的欺诈检测率。
造成模型债务的主要原因是资源和工作流管理不力,这使得从原型到成功部署的模型难以得到指导。由于多个团队在共享 AI 基础架构上开展项目,管理访问变得具有挑战性。团队发现自己使用共享日历、电子表格和即时消息来解决日程安排冲突。随着 AI 团队的扩大,监控、报告和工作优先级等日常管理需求变得更加复杂。这导致团队争先恐后地使用硬件——有时即使没有正在运行的工作,也会无限期地保留一个或多个系统,以确保他们在需要时可以访问。在某些情况下,这些预留会长时间处于非活动状态——或者更糟的是,被遗忘——实际上是将容量扔进了垃圾箱。没有中央清算所可以决定可用硬件的用户和作业的优先级。
随着深度学习网络和训练数据的复杂性呈指数级增长,人工智能研究人员的计算需求不断增加。过去的训练仅限于一个或几个 GPU,通常是在工作站中进行。如今的训练通常使用数十个、数百个甚至数千个 GPU 来评估和优化不同的模型配置和参数。此外,组织有多个人工智能研究人员,他们都需要同时训练多个模型。如此大规模的系统对人工智能研究人员来说可能很新奇,但这些设备传统上一直是世界上最重要的研究机构和学术界的标志,推动了几乎所有类型的科学研究的创新。