Loading...
机构名称:
¥ 8.0

图 1. 现代云数据中心工作负载需要 NVIDIA GPU 加速 .......................................................... 8 图 2. NVIDIA A100 中的新技术.................................................................................... 10 图 3. 新 SXM4 模块上的 NVIDIA A100 GPU ........................................................................ 12 图 4. 用于 BERT-LARGE 训练和推理的统一 AI 加速 ............................................................. 13 图 5. 与 NVIDIA Tesla V100 相比,A100 GPU HPC 应用程序加速 ............................................. 14 图 6. 带有 128 个 SM 的 GA100 全 GPU(A100 Tensor Core GPU 有 108 个 SM) ............................................................................................. 20 图 7. GA100 流多处理器 (SM) ............................................................................................. 22 图 8. A100 与 V100 Tensor Core 操作 ............................................................................................. 25 图 9. TensorFloat-32 (TF32) ........................................................................................... 27 图 10. 迭代TCAIRS 求解器收敛到 FP64 精度所需的时间 .............................................. 30 图 11. TCAIRS 求解器相对于基线 FP64 直接求解器的加速 ........................................................ 30 图 12. A100 细粒度结构化稀疏性 ...................................................................................... 32 图 13. 密集 MMA 和稀疏 MMA 操作示例 ............................................................................. 33 图 14. A100 Tensor Core 吞吐量和效率 ............................................................................. 39 图 15. A100 SM 数据移动效率 ............................................................................................. 40 图 16. A100 L2 缓存驻留控制 ............................................................................................. 41 图 17. A100 计算数据压缩 ............................................................................................. 41 图 18. A100 强扩展创新 ............................................................................................. 42 图 19. Pascal 中基于软件的 MPS 与硬件加速的 MPS Volta............. 44 图 20. 当今的 CSP 多用户节点 ...................................................................................... 46 图 21. 示例 CSP MIG 配置 .............................................................................................. 47 图 22. 具有三个 GPU 实例的示例 MIG 计算配置。 ...................................................... 48 图 23. 具有多个独立 GPU 计算工作负载的 MIG 配置 ...................................................... 49 图 24. 示例 MIG 分区过程 ............................................................................................. 50 图 25. 具有三个 GPU 实例和四个计算实例的示例 MIG 配置。 .................... 51 图 26. 带有八个 A100 GPU 的 NVIDIA DGX A100............................................................. 53 图 27. 光流和立体视差的说明 .................................................................................... 55 图 28.顺序 2us 内核的执行细分。................................................................ 59 图 29. 任务图加速对 CPU 启动延迟的影响 .............................................................. 60

NVIDIA A100 Tensor Core GPU 架构

NVIDIA A100 Tensor Core GPU 架构PDF文件第1页

NVIDIA A100 Tensor Core GPU 架构PDF文件第2页

NVIDIA A100 Tensor Core GPU 架构PDF文件第3页

NVIDIA A100 Tensor Core GPU 架构PDF文件第4页

NVIDIA A100 Tensor Core GPU 架构PDF文件第5页