NVIDIA H100 Tensor Core GPU 架构___XiaoMi-AI 助力科研平台

NVIDIA H100 Tensor Core GPU 架构

可下载资源数量

已经购买

下载数量：1

单价	0 7.0
Coupon	100% 0%
Total	0 7.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

NVIDIA H100 Tensor Core GPU 架构

¥ 7.0

热度

○ 与 A100 相比，新的第四代 Tensor Cores 芯片间速度提高了 6 倍，包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。与上一代 16 位浮点选项相比，在每个 SM 上，Tensor Cores 在等效数据类型上提供 A100 SM 的 2 倍 MMA（矩阵乘法累加）计算速率，在使用新的 FP8 数据类型时提供 A100 的 4 倍速率。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性，使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 快 7 倍。两个例子包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。 ○ 与 A100 相比，由于每个 SM 的时钟性能提高了 2 倍，再加上 H100 的额外 SM 数量和更高的时钟频率，因此芯片到芯片的 IEEE FP64 和 FP32 处理速度提高了 3 倍。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型，现在包括线程、线程块、线程块群集和网格。群集支持跨多个 SM 同时运行的多个线程块以同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元，它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持群集中线程块之间的异步复制。还有一个新的异步事务屏障，用于执行原子数据移动和同步。 ● 新型 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术，专门用于加速 Transformer 模型的训练和推理。Transformer Engine 可以智能地管理和动态地选择 FP8 和 16 位计算，自动处理每层 FP8 和 16 位之间的重新转换和缩放，与上一代 A100 相比，在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU，可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问，从而减少对 HBM3 的访问。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽

添加pdf代下载 VIP点击下载文件