NEC 选择使用 NVIDIA A100 Tensor Core GPU,主要原因是使用 NVIDIA A100 进行 AI 运算的总计算速度非常出色。此外,A100 的 GPU 内存带宽为 2TB/s,但在深度学习中,这基本上是内存带宽限制。因此,使用 A100 中的 TF32,范围与 FP32 相同,但精度可以视为 FP16,虽然精度没有受到影响,但可以缓解内存带宽瓶颈。换句话说,更容易利用 A100 的计算性能。特别是,NEC 内部许多小组都在研究和开发使用图像的 AI,例如生物特征认证、图像识别和视频识别,这对 GPU 的内存限制更大。因此,NEC 采用了支持 TF32 的 A100。
BERT 使用 Pytorch 进行预训练吞吐量,包括(2/3)第 1 阶段和(1/3)第 2 阶段 | 第 1 阶段 Seq Len = 128,第 2 阶段 Seq Len = 512 V100:使用 FP32 精度的 8xV100 的 DGX-1 服务器 A100:使用 TF32 精度的 8xA100 的 DGX A100 服务器 |
ABCI 2.0 的总体性能 / 容量 HPC (FP64) 56.6 PFLOPS DL 训练 (FP32/TF32) 226.0 PFLOPS DL 训练 (FP16/BF16) 851.5 PFLOPS 内存容量 573.5 TiB 内存带宽 5.73 PB/s 本地存储 2.2 PB
Applied Digital 认为,最适合其用户的系统是 Supermicro SYS- 821GE-TNHR,它配备双第四代英特尔® 至强® 铂金处理器 8462Y+。这些服务器使用 NVIDIA HGX H100 GPU,每个 GPU 配备 80GB 内存。NVIDIA H100 为 HPC 提供 67 万亿次浮点运算的 FP64 Tensor Core 计算,而融合 AI 的 HPC 应用程序可以利用 H100 的 TF32 精度实现单精度矩阵乘法运算的 1 千万亿次浮点运算吞吐量。该系统在计算节点内托管八个 H100 Tensor Core GPU 和 900GB/s NVSwitch,用于 GPU 到 GPU 的通信。Applied Digital 选择 2TB 的系统 RAM 来在转移到 GPU 内存之前暂存工作负载。对于网络,Applied Digital 使用 100GbE 进行带内管理和对象存储,并使用 NDR 结构进行 GPU Direct 和融合闪存文件系统流量。利用 NVIDIA DGX 参考架构,Applied Digital 可扩展到在单个并行计算集群中工作的数千个 H100 GPU。
图 1. 现代云数据中心工作负载需要 NVIDIA GPU 加速 .......................................................... 8 图 2. NVIDIA A100 中的新技术.................................................................................... 10 图 3. 新 SXM4 模块上的 NVIDIA A100 GPU ........................................................................ 12 图 4. 用于 BERT-LARGE 训练和推理的统一 AI 加速 ............................................................. 13 图 5. 与 NVIDIA Tesla V100 相比,A100 GPU HPC 应用程序加速 ............................................. 14 图 6. 带有 128 个 SM 的 GA100 全 GPU(A100 Tensor Core GPU 有 108 个 SM) ............................................................................................. 20 图 7. GA100 流多处理器 (SM) ............................................................................................. 22 图 8. A100 与 V100 Tensor Core 操作 ............................................................................................. 25 图 9. TensorFloat-32 (TF32) ........................................................................................... 27 图 10. 迭代TCAIRS 求解器收敛到 FP64 精度所需的时间 .............................................. 30 图 11. TCAIRS 求解器相对于基线 FP64 直接求解器的加速 ........................................................ 30 图 12. A100 细粒度结构化稀疏性 ...................................................................................... 32 图 13. 密集 MMA 和稀疏 MMA 操作示例 ............................................................................. 33 图 14. A100 Tensor Core 吞吐量和效率 ............................................................................. 39 图 15. A100 SM 数据移动效率 ............................................................................................. 40 图 16. A100 L2 缓存驻留控制 ............................................................................................. 41 图 17. A100 计算数据压缩 ............................................................................................. 41 图 18. A100 强扩展创新 ............................................................................................. 42 图 19. Pascal 中基于软件的 MPS 与硬件加速的 MPS Volta............. 44 图 20. 当今的 CSP 多用户节点 ...................................................................................... 46 图 21. 示例 CSP MIG 配置 .............................................................................................. 47 图 22. 具有三个 GPU 实例的示例 MIG 计算配置。 ...................................................... 48 图 23. 具有多个独立 GPU 计算工作负载的 MIG 配置 ...................................................... 49 图 24. 示例 MIG 分区过程 ............................................................................................. 50 图 25. 具有三个 GPU 实例和四个计算实例的示例 MIG 配置。 .................... 51 图 26. 带有八个 A100 GPU 的 NVIDIA DGX A100............................................................. 53 图 27. 光流和立体视差的说明 .................................................................................... 55 图 28.顺序 2us 内核的执行细分。................................................................ 59 图 29. 任务图加速对 CPU 启动延迟的影响 .............................................................. 60
