大规模人工智能的挑战 DGXA100 和 Selene 关于 Selene 存储架构的讨论 合成和真实应用性能 客户端缓存:工作负载性能的新功能?
NVIDIA DGX SUPERPOD™带有NVIDIA DGX™B200系统是人工智能(AI)的下一代数据中心体系结构。旨在提供在AI,高性能计算(HPC)和混合应用程序中解决高级计算挑战所需的计算性能水平,其中两者合并以提高预测性能和时间的时间。DGX SuperPod基于NVIDIA建造的基础架构,用于内部研究目的,旨在解决当今最具挑战性的计算问题。基于DGX SuperPod体系结构的系统已在全球客户数据中心和云服务提供商处部署。
4初始设置15 4.1连接到DGX系统。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 4.2第一个引导设置向导。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 4.2.1 DGX服务器的第一个引导过程。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。16 4.2.2 DGX站的第一个引导过程。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。17 4.3智力后任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。19 4.3.1执行DGX服务器的软件包更新。。。。。。。。。。。。。。。。。。。。。。。。19 4.3.1.1将DOCA驱动程序添加到DGX服务器。。。。。。。。。。。。。。。。。。。。。。。。。19 4.3.1.2更新剩余的驱动程序和软件包。。。。。。。。。。。。。。。。。。。。。。。。。19 4.3.1.3准备DGX服务器以进行将来的更新。。。。。。。。。。。。。。。。。。。。。。。20 4.3.1.4验证DGX OS 7.0.1更新。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。20 4.3.2执行DGX站的包装更新。。。。。。。。。。。。。。。。。。。。。。。20 4.3.3向DGX站添加支持其他语言的支持。。。。。。。。。。。。。。20 4.3.4配置DGX站。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 4.3.5使多个用户能够远程访问DGX系统。。。。。。。。。。。。。。22
企业内部 AI 的使用案例数量(包括语言建模、网络安全、自主系统和医疗保健等)持续快速增长。不仅使用案例数量在增长,模型复杂性和数据源也在增长。处理、训练和服务这些下一代模型所需的系统也必须增长。训练模型通常使用数十个 GPU 来评估和优化不同的模型配置和参数。对于这些新的工作负载,所有 GPU 都必须能够轻松访问训练数据。此外,组织有许多 AI 研究人员必须同时训练多个模型。企业需要灵活性,以便多个开发人员和研究人员在完善 AI 堆栈并将其投入生产时共享这些资源。
1 NVIDIA DGX H100/H200 系统简介 3 1.1 硬件概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1.5 使用锁定电源线. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.7.1 带挡板 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.9 主板连接和控制. . . . . . . . . . . . . . . 10 1.1.10 主板托盘组件. . . . . . . . . . . . . . . . 10 1.1.11 GPU 托盘组件. . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2 网络连接、电缆和适配器 . . . . . . . . . . . . . . . 12 1.2.1 网络端口 . . . . . . . . . . . . . . . . . . . . 12 1.2.2 计算和存储网络 . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.3 网络模块. . . . . . . . . . . . . . . . . . . . 14 1.2.4 BMC 端口 LED . . . . . . . . . . . . . . . . . . 15 1.2.5 支持的网络电缆和适配器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................................................................................................... 16 1.5 客户支持 . .................................................................................................................................... 17
NVIDIA DGX SuperPOD™ 搭配 NVIDIA DGX™ H200 系统是新一代人工智能 (AI) 数据中心架构。旨在提供解决 AI、高性能计算 (HPC) 和混合应用中的高级计算挑战所需的计算性能水平,将两者相结合以提高预测性能和解决问题的时间。DGX SuperPOD 基于 NVIDIA 为内部研究目的构建的基础设施,旨在解决当今最具挑战性的计算问题。基于 DGX SuperPOD 架构的系统已部署在世界各地的客户数据中心和云服务提供商中。
4. 通过 ssh 进入头节点并粘贴复制的 wget 代码以下载 CLI 二进制文件。admin@basepod-head1:~# wget --content-disposition https://basepod-nvidia-runai.runai- poc.com/cli/linux --2023-01-20 12:51:44-- https://basepod-nvidia-runai.runai-poc.com/cli/linux Resolving basepod-nvidia-runai.runai-poc.com (basepod-nvidia-runai.runai-poc.com)... 10.130.122.9 Connecting to basepod-nvidia-runai.runai-poc.com (basepod-nvidia-runai.runai- poc.com)|10.130.122.9|:443... Connected. HTTP 请求已发送,等待响应... 200 OK 长度:未指定 [application/octet-stream] 保存到:'runai' runai [ <=> ] 61.15M 30.2MB/s 在 2.0 秒内 2023-01-20 12:51:46 (30.2 MB/s) - 'runai' 已保存 [64118773] 5. 将二进制文件的权限更改为执行。
A100 80GB GPU 的 GPU 内存带宽比 A100 40GB GPU 增加了 30%,成为全球首款每秒 2 兆字节 (TB/s) 的 GPU。与上一代 NVIDIA GPU 相比,它的片上内存也显著增加,包括 40 兆字节 (MB) 的二级缓存,其容量几乎增加了 7 倍,从而最大程度地提高了计算性能。DGX A100 还首次推出了第三代 NVIDIA ® NVLink ®,将 GPU 到 GPU 的直接带宽提高了一倍,达到每秒 600 千兆字节 (GB/s),几乎比 PCIe Gen 4 高 10 倍,并且新的 NVIDIA NVSwitch ™ 比上一代快 2 倍。这种前所未有的强大功能可以最快地解决问题,使用户能够应对以前不可能或不切实际的挑战。
ESG 评估了 NVIDIA DGX A100 AI 系统,重点关注该平台如何缩短洞察时间。NVIDIA DGX 是一个专门构建的 AI 平台,旨在支持分析、AI、训练和推理。NVIDIA DGX 是一个紧密集成的平台,具有针对 AI 优化的 GPU,为 AI 端到端构建。NVIDIA DGX A100 系统配备八个 NVIDIA GPU 和两个第二代 AMD EPYC 处理器。NVIDIA 和 Dell Technologies 合作设计和构建了一个高性能、一流的架构,可以利用 Dell EMC PowerScale 存储产品组合。各种规模的组织都可以在机架式服务器设备或塔式配置中将这种可扩展的数据中心技术部署到任何需要的地方。NVIDIA DGX 旨在实现从 AI 平台发布到模型创建再到优化的完整 AI 生命周期,并在节省时间、精力和金钱的同时实现即时生产力。 NVIDIA DGX 提供快速部署和开箱即用的生产力,将专用硬件与嵌入式工具和 AI 软件相结合,使组织能够从数据中提取价值和洞察力,而无需进行软件工程、系统集成或故障排除。这使组织能够在数小时内而不是数周内运行实验,并且性能可预测地扩展。
造成模型债务的主要原因是资源和工作流管理不力,这使得从原型到成功部署的模型难以得到指导。由于多个团队在共享 AI 基础架构上开展项目,管理访问变得具有挑战性。团队发现自己使用共享日历、电子表格和即时消息来解决日程安排冲突。随着 AI 团队的扩大,监控、报告和工作优先级等日常管理需求变得更加复杂。这导致团队争先恐后地使用硬件——有时即使没有正在运行的工作,也会无限期地保留一个或多个系统,以确保他们在需要时可以访问。在某些情况下,这些预留会长时间处于非活动状态——或者更糟的是,被遗忘——实际上是将容量扔进了垃圾箱。没有中央清算所可以决定可用硬件的用户和作业的优先级。