图 1. 现代云数据中心工作负载需要 NVIDIA GPU 加速 .......................................................... 8 图 2. NVIDIA A100 中的新技术.................................................................................... 10 图 3. 新 SXM4 模块上的 NVIDIA A100 GPU ........................................................................ 12 图 4. 用于 BERT-LARGE 训练和推理的统一 AI 加速 ............................................................. 13 图 5. 与 NVIDIA Tesla V100 相比,A100 GPU HPC 应用程序加速 ............................................. 14 图 6. 带有 128 个 SM 的 GA100 全 GPU(A100 Tensor Core GPU 有 108 个 SM) ............................................................................................. 20 图 7. GA100 流多处理器 (SM) ............................................................................................. 22 图 8. A100 与 V100 Tensor Core 操作 ............................................................................................. 25 图 9. TensorFloat-32 (TF32) ........................................................................................... 27 图 10. 迭代TCAIRS 求解器收敛到 FP64 精度所需的时间 .............................................. 30 图 11. TCAIRS 求解器相对于基线 FP64 直接求解器的加速 ........................................................ 30 图 12. A100 细粒度结构化稀疏性 ...................................................................................... 32 图 13. 密集 MMA 和稀疏 MMA 操作示例 ............................................................................. 33 图 14. A100 Tensor Core 吞吐量和效率 ............................................................................. 39 图 15. A100 SM 数据移动效率 ............................................................................................. 40 图 16. A100 L2 缓存驻留控制 ............................................................................................. 41 图 17. A100 计算数据压缩 ............................................................................................. 41 图 18. A100 强扩展创新 ............................................................................................. 42 图 19. Pascal 中基于软件的 MPS 与硬件加速的 MPS Volta............. 44 图 20. 当今的 CSP 多用户节点 ...................................................................................... 46 图 21. 示例 CSP MIG 配置 .............................................................................................. 47 图 22. 具有三个 GPU 实例的示例 MIG 计算配置。 ...................................................... 48 图 23. 具有多个独立 GPU 计算工作负载的 MIG 配置 ...................................................... 49 图 24. 示例 MIG 分区过程 ............................................................................................. 50 图 25. 具有三个 GPU 实例和四个计算实例的示例 MIG 配置。 .................... 51 图 26. 带有八个 A100 GPU 的 NVIDIA DGX A100............................................................. 53 图 27. 光流和立体视差的说明 .................................................................................... 55 图 28.顺序 2us 内核的执行细分。................................................................ 59 图 29. 任务图加速对 CPU 启动延迟的影响 .............................................................. 60
主要关键词