○ 与 A100 相比,新的第四代 Tensor Cores 的芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。在每个 SM 的基础上,与上一代 16 位浮点选项相比,Tensor Cores 在等效数据类型上提供 2 倍的 A100 SM MMA(矩阵乘法累加)计算速率,使用新的 FP8 数据类型提供 4 倍的 A100 速率。Sparsity 功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 加速高达 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。○ 与 A100 相比,IEEE FP64 和 FP32 芯片间处理速度提高了 3 倍,这是由于每个 SM 的时钟对时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。集群支持跨多个 SM 同时运行的多个线程块同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。● 新的 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型训练和推理。Transformer Engine 可智能管理并动态选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少 HBM3 的访问次数。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽
Byd是世界上最大的电动汽车制造商,将其与Nvidia的持续合作从汽车扩展到云。除了在Drive Thor上构建其下一代EV机队外,BYD计划将NVIDIA的AI基础设施用于基于云的AI开发和培训技术,以及NVIDIA ISAAC™和NVIDIA OMNIVERSE™平台为虚拟工厂计划和零件配置者开发工具和应用程序。GAC Aion拥有的高级豪华品牌 Hyper宣布已选择Drive Thor作为其下一代电动汽车,该电动汽车将于2025年以4级驾驶功能开始生产。 Hyper当前正在使用Nvidia Drive Orin为其旗舰型号Hyper GT供电,该型号具有高级2级以上的驾驶功能。 Xpeng还宣布,它将使用Nvidia Drive Thor平台作为其下一代电动汽车舰队的AI大脑。 下一代汽车计算机将为电动汽车制造商专有的XNGP AI辅助驾驶系统提供动力,从而实现自动驾驶和停车功能,驾驶员和乘客监控以及其他功能。Hyper宣布已选择Drive Thor作为其下一代电动汽车,该电动汽车将于2025年以4级驾驶功能开始生产。Hyper当前正在使用Nvidia Drive Orin为其旗舰型号Hyper GT供电,该型号具有高级2级以上的驾驶功能。Xpeng还宣布,它将使用Nvidia Drive Thor平台作为其下一代电动汽车舰队的AI大脑。下一代汽车计算机将为电动汽车制造商专有的XNGP AI辅助驾驶系统提供动力,从而实现自动驾驶和停车功能,驾驶员和乘客监控以及其他功能。
Certain statements in this press release including, but not limited to, statements as to: the benefits, impact, and performance of NVIDIA's products, services, and technologies, including NVIDIA Omniverse, NVIDIA NIM microservices, NVIDIA Edify SimReady generative AI model, NVIDIA Cosmos world foundation models, NVIDIA CUDA-X, and NVIDIA Blueprints including Mega, Autonomous车辆(AV)模拟,Omniverse空间流到Apple Vision Pro以及用于计算机辅助工程的实时数字双胞胎(CAE);第三方使用或采用NVIDIA的产品和技术,其好处和影响以及其产品的功能,性能和可用性;物理AI彻底改变了500万亿美元的制造业和物流行业;从汽车和卡车到工厂和仓库的一切移动的一切都是机器人和由AI体现的,都是前瞻性陈述,这些陈述遭受风险和不确定性,可能导致结果与期望有实质性不同。向SEC提交的报告的副本已发布在公司网站上,可在NVIDIA上免费获得。这些前瞻性陈述不能保证未来的表现,并且仅在此日期开始说话,除了法律要求外,Nvidia违反了更新这些前瞻性陈述以反映未来事件或情况的任何义务。可能导致实际结果差异的重要因素包括:全球经济状况;我们依靠第三方制造,组装,包装和测试我们的产品;技术发展和竞争的影响;开发新产品和技术或对我们现有产品和技术的增强;市场接受我们的产品或合作伙伴的产品;设计,制造或软件缺陷;消费者偏好或需求的变化;行业标准和界面的变化;集成到系统中时,我们的产品或技术的性能意外丧失;以及其他因素不时详细介绍了与美国证券交易委员会(SEC)或SEC的NVIDIA文件中详细介绍的,包括但不限于其表格10-K和表格10-Q的季度报告的年度报告。
NVIDIA®Bluefield®-3数据处理单元(DPU)控制器是第三代数据中心基础架构,它使组织能够构建软件定义的,硬件的IT基础架构,从云到核心数据中心。具有200GB/S以太网或NDR200 200GB/S Infiniband网络连接,Bluefield-3 DPU控制器卸载,加速和隔离软件定义的网络,存储,安全性和管理功能,以极大地提高数据中心的性能,效率和安全性,以极大地提高数据中心。提供功能强大的计算以及I/O路径中的各种可编程加速引擎,BlueField-3非常适合满足最苛刻的应用程序的基础架构需求,同时通过NVIDIA DOCA™软件框架将完整的软件向后兼容。
NVIDIA JOCHEN的EMEA金融技术负责人Jochen Papenbrock博士是金融技术EMEA /首席开发人员关系经理NVIDIA的负责人,Nvidia是全球领先的加速计算平台公司NVIDIA。 他在金融服务中的AI主题上曾在过去的25年中担任各种职务。 他与全球NVIDIA生态系统的高管,数据科学家,开发人员和合作伙伴合作。 Jochen是一名财务数据科学家,并获得了他的学位和博士学位。来自Karlsruhe理工学院(套件)。 在NVIDIA之前,他曾担任资产经理,银行,保险公司和中央银行的顾问,企业家和研究人员。NVIDIA JOCHEN的EMEA金融技术负责人Jochen Papenbrock博士是金融技术EMEA /首席开发人员关系经理NVIDIA的负责人,Nvidia是全球领先的加速计算平台公司NVIDIA。他在金融服务中的AI主题上曾在过去的25年中担任各种职务。他与全球NVIDIA生态系统的高管,数据科学家,开发人员和合作伙伴合作。Jochen是一名财务数据科学家,并获得了他的学位和博士学位。来自Karlsruhe理工学院(套件)。在NVIDIA之前,他曾担任资产经理,银行,保险公司和中央银行的顾问,企业家和研究人员。
© 2023 NVIDIA Corporation 及其附属公司。保留所有权利。NVIDIA、NVIDIA 徽标、Base Command、BlueField、CUDA、DGX、DGX POD、DGX SuperPOD、Grace、Grace Hopper、Hopper、NVIDIA-Certified Systems、Spectrum、TensorRT 和 Triton 是 NVIDIA Corporation 及其附属公司在美国和其他国家/地区的商标和/或注册商标。其他公司和产品名称可能是与其相关的各自所有者的商标。2730427。9 月 23 日
○ 与 A100 相比,新的第四代 Tensor Cores 芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。与上一代 16 位浮点选项相比,在每个 SM 上,Tensor Cores 在等效数据类型上提供 A100 SM 的 2 倍 MMA(矩阵乘法累加)计算速率,在使用新的 FP8 数据类型时提供 A100 的 4 倍速率。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 快 7 倍。两个例子包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。 ○ 与 A100 相比,由于每个 SM 的时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟频率,因此芯片到芯片的 IEEE FP64 和 FP32 处理速度提高了 3 倍。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。群集支持跨多个 SM 同时运行的多个线程块以同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持群集中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。 ● 新型 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer Engine 可以智能地管理和动态地选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少对 HBM3 的访问。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽
1 NVIDIA DGX H100/H200 系统简介 3 1.1 硬件概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1.5 使用锁定电源线. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.7.1 带挡板 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.9 主板连接和控制. . . . . . . . . . . . . . . 10 1.1.10 主板托盘组件. . . . . . . . . . . . . . . . 10 1.1.11 GPU 托盘组件. . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2 网络连接、电缆和适配器 . . . . . . . . . . . . . . . 12 1.2.1 网络端口 . . . . . . . . . . . . . . . . . . . . 12 1.2.2 计算和存储网络 . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.3 网络模块. . . . . . . . . . . . . . . . . . . . 14 1.2.4 BMC 端口 LED . . . . . . . . . . . . . . . . . . 15 1.2.5 支持的网络电缆和适配器. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................................................................................................... 16 1.5 客户支持 . .................................................................................................................................... 17
为了克服通过网络传输 X 的低性能问题,必须启用远程节点上的渲染。图 4 显示了具有远程可视化应用程序的配置。该应用程序通过 Xlib 与计算节点上的 X 服务器通信。OpenGL 上下文、窗口和用户交互均由计算节点上的 X 服务器完成。当从本地 GPU 捕获渲染的帧并将其传输到在用户工作站上运行的应用程序客户端时,计算节点上的应用程序完全处于控制之中。鉴于可视化应用程序完全控制客户端和服务器端,因此可以实现压缩协议等,从而实现高性能的图像传输解决方案。这是“远程可视化”部分中描述的情况。