NVIDIA H100 Tensor Core GPU 架构
机构名称:
¥ 7.0

○ 与 A100 相比,新的第四代 Tensor Cores 芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。与上一代 16 位浮点选项相比,在每个 SM 上,Tensor Cores 在等效数据类型上提供 A100 SM 的 2 倍 MMA(矩阵乘法累加)计算速率,在使用新的 FP8 数据类型时提供 A100 的 4 倍速率。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 快 7 倍。两个例子包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。 ○ 与 A100 相比,由于每个 SM 的时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟频率,因此芯片到芯片的 IEEE FP64 和 FP32 处理速度提高了 3 倍。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。群集支持跨多个 SM 同时运行的多个线程块以同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持群集中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。 ● 新型 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer Engine 可以智能地管理和动态地选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少对 HBM3 的访问。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽

NVIDIA H100 Tensor Core GPU 架构

NVIDIA H100 Tensor Core GPU 架构PDF文件第1页

NVIDIA H100 Tensor Core GPU 架构PDF文件第2页

NVIDIA H100 Tensor Core GPU 架构PDF文件第3页

NVIDIA H100 Tensor Core GPU 架构PDF文件第4页

NVIDIA H100 Tensor Core GPU 架构PDF文件第5页

相关文件推荐

NVIDIA HGX A100
2020 年
¥1.0
NVIDIA DGX A100 数据表
我们的准则 - NVIDIA
2023 年
¥1.0
100
2024 年
¥1.0
AI开发架构
2021 年
¥1.0
重视 NVIDIA!
2023 年
¥2.0
陆军条例 1–100
2023 年
¥2.0
建造者-H100
2024 年
¥1.0
建造者-H100
2024 年
¥1.0
建造者-H100
2024 年
¥1.0
DPD法100次
2024 年
¥1.0
NVIDIA AI 企业版
2024 年
¥2.0
ARM 架构
2024 年
¥1.0
100天100项措施
2024 年
¥1.0
AI 集群架构
2021 年
¥1.0
太空作战架构
2022 年
¥1.0
SAP AI Core
2024 年
¥36.0
我们的代码 - NVIDIA
2023 年
¥1.0
福特 4R100
2012 年
¥12.0
矩阵 - EPR 100
2009 年
¥1.0
切割 100i 火
2010 年
¥1.0