截至 Entegris 发货时,信息是最新且准确的。Entegris 对此类信息不作任何明示或暗示的保证,包括但不限于对适销性和特定用途适用性的暗示保证。Entegris 对任何损失、伤害或其他后果不承担任何责任,包括因使用数据表中的信息或应用、使用或误用数据表中描述的 Entegris 产品而导致的任何人员或财产伤害和/或损害,无论是产品责任、疏忽还是其他原因。数据表中描述的 Entegris 产品的化学、物理和毒理学特性尚未得到彻底调查。用户有责任谨慎使用 Entegris 产品,并自行进行调查以确定产品是否适合其特定用途并适合其使用或应用方法。用户有责任确保其活动符合所有适用法律和法规。
Entegris ® 、Entegris Rings Design ® 和其他产品名称是 Entegris, Inc. 的商标,如 entegris.com/trademarks 所列。所有第三方产品名称、徽标和公司名称均为其各自所有者的商标或注册商标。使用它们并不表示商标所有者与它们有任何关联、赞助或认可。
高保真计算流体力学模拟通常与大量计算需求相关,而每一代超级计算机的出现都对计算能力提出了更高的要求。然而,需要进行大量的研究工作才能释放基于日益复杂的架构的前沿系统(目前称为前百亿亿次级系统)的计算能力。在本文中,我们介绍了在计算力学代码 Alya 中实现的方法。我们详细描述了为充分利用不同级别的并行性而实施的并行化策略,以及一种用于有效利用异构 CPU/GPU 架构的新型共执行方法。后者基于具有动态负载平衡机制的多代码共执行方法。已针对使用 NVIDIA Volta V100 GPU 加速的 POWER9 架构上的飞机模拟对所有提出的策略的性能进行了评估。
图 1. 现代云数据中心工作负载需要 NVIDIA GPU 加速 .......................................................... 8 图 2. NVIDIA A100 中的新技术.................................................................................... 10 图 3. 新 SXM4 模块上的 NVIDIA A100 GPU ........................................................................ 12 图 4. 用于 BERT-LARGE 训练和推理的统一 AI 加速 ............................................................. 13 图 5. 与 NVIDIA Tesla V100 相比,A100 GPU HPC 应用程序加速 ............................................. 14 图 6. 带有 128 个 SM 的 GA100 全 GPU(A100 Tensor Core GPU 有 108 个 SM) ............................................................................................. 20 图 7. GA100 流多处理器 (SM) ............................................................................................. 22 图 8. A100 与 V100 Tensor Core 操作 ............................................................................................. 25 图 9. TensorFloat-32 (TF32) ........................................................................................... 27 图 10. 迭代TCAIRS 求解器收敛到 FP64 精度所需的时间 .............................................. 30 图 11. TCAIRS 求解器相对于基线 FP64 直接求解器的加速 ........................................................ 30 图 12. A100 细粒度结构化稀疏性 ...................................................................................... 32 图 13. 密集 MMA 和稀疏 MMA 操作示例 ............................................................................. 33 图 14. A100 Tensor Core 吞吐量和效率 ............................................................................. 39 图 15. A100 SM 数据移动效率 ............................................................................................. 40 图 16. A100 L2 缓存驻留控制 ............................................................................................. 41 图 17. A100 计算数据压缩 ............................................................................................. 41 图 18. A100 强扩展创新 ............................................................................................. 42 图 19. Pascal 中基于软件的 MPS 与硬件加速的 MPS Volta............. 44 图 20. 当今的 CSP 多用户节点 ...................................................................................... 46 图 21. 示例 CSP MIG 配置 .............................................................................................. 47 图 22. 具有三个 GPU 实例的示例 MIG 计算配置。 ...................................................... 48 图 23. 具有多个独立 GPU 计算工作负载的 MIG 配置 ...................................................... 49 图 24. 示例 MIG 分区过程 ............................................................................................. 50 图 25. 具有三个 GPU 实例和四个计算实例的示例 MIG 配置。 .................... 51 图 26. 带有八个 A100 GPU 的 NVIDIA DGX A100............................................................. 53 图 27. 光流和立体视差的说明 .................................................................................... 55 图 28.顺序 2us 内核的执行细分。................................................................ 59 图 29. 任务图加速对 CPU 启动延迟的影响 .............................................................. 60
○ 与 A100 相比,新的第四代 Tensor Cores 的芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。在每个 SM 的基础上,与上一代 16 位浮点选项相比,Tensor Cores 在等效数据类型上提供 2 倍的 A100 SM MMA(矩阵乘法累加)计算速率,使用新的 FP8 数据类型提供 4 倍的 A100 速率。Sparsity 功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 加速高达 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。○ 与 A100 相比,IEEE FP64 和 FP32 芯片间处理速度提高了 3 倍,这是由于每个 SM 的时钟对时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。集群支持跨多个 SM 同时运行的多个线程块同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。● 新的 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型训练和推理。Transformer Engine 可智能管理并动态选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少 HBM3 的访问次数。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽
印刷电路板(PCB)设计的规模已大大提高,现代商业设计具有10,000多个组件。但是,放置过程大大依赖了需要数周完成的手动努力,强调了对自动PCB放置方法的需求。PCB放置的挑战来自其灵活的设计空间和有限的路由资源。现有的自动PCB放置工具在质量和可扩展性方面取得了有限的成功。相比之下,非常大规模的集成(VLSI)放置方法已被证明是可扩展的,对于具有数百万个细胞并提供高质量结果的设计是可扩展的。因此,我们提出了柏树,这是一种受VLSI启发的可扩展的,加速的PCB放置方法。它结合了适合PCB布局的量身定制的成本功能,约束处理和优化的技术。此外,对现实和开源基准的需求不断增长,以(1)在工具和(2)建立Performance基准之间进行有意义的比较以跟踪PCB放置技术的进度。为了解决这一差距,我们提出了一个从实际商业设计中合成的PCB基准套件。我们使用基准套件来评估针对最先进的商业和学术PCB放置工具的方法。我们的方法在提出的基准测试标准上证明了1-5.9倍的可路由。对于完全路由的设计,赛普拉斯达到了1-19.7×较短的路由轨道长度。随着GPU加速度,柏树在运行时间内最多可提供492.3倍的加速。最后,我们展示了对真实商业设计的可扩展性,这是现有工具无与伦比的功能。
Entegris®,Entegris RingsDesign®和其他产品名称是Entegris.com/trademarks上列出的Entegris,Inc。的商标。所有第三方产品名称,徽标和公司名称都是其各自所有者的商标或注册商标。使用它们并不意味着商标所有者的任何隶属关系,赞助或认可。
Entegris®,Entegris RingsDesign®和其他产品名称是Entegris.com/trademarks上列出的Entegris,Inc。的商标。所有第三方产品名称,徽标和公司名称都是其各自所有者的商标或注册商标。使用它们并不意味着商标所有者的任何隶属关系,赞助或认可。
英特尔 Arc GPU 代表了设备边缘图形技术的一次飞跃,它将先进的人工智能、卓越的图形和高效的媒体处理功能融合在单个 GPU 中。英特尔 Arc GPU 可与部分英特尔® 酷睿™ CPU 处理器无缝配对,形成完整的解决方案。英特尔 Arc GPU 基于英特尔先进的 X e 图形架构构建,可在从集成显卡到高性能独立显卡的各种计算环境中提供可扩展的性能。英特尔 X e HPG 架构为关键边缘用途和工作负载提供专用加速,包括用于加速推理的英特尔® X e 矩阵扩展 (英特尔® XMX) 人工智能引擎和用于加快转码和其他媒体处理任务的 X e 媒体引擎。英特尔 Arc GPU 专门针对边缘,提供五年的长期可用性和支持、多样化的边缘外形尺寸以及对边缘受限使用条件的支持。
经济高效、紧凑可靠:SFC 6000H 系列静态 GPU 为直升机、军用喷气式飞机和小型民用飞机提供 400Hz 机库电力,提供最具成本效益和灵活性的方式。通过采用最先进的电子设计,SFC 6000H 型号不仅在各自的功率等级中非常紧凑,而且非常安静。这意味着人员可以在它们附近工作,而不会产生通常与 400Hz 转换器相关的令人疲劳的噪音。统一输入功率因数:先进的前端设计确保所有型号的输入功率因数接近 1。这意味着几乎没有被拒绝的谐波,输入功耗最小化,整体转换器效率最大化。