深度神经网络 (DNN) 的训练每年都变得越来越耗费资源和能源。遗憾的是,现有的研究主要侧重于优化 DNN 训练以加快完成速度,而往往不考虑对能源效率的影响。在本文中,我们观察到,提高训练性能的常见做法往往会导致能源使用效率低下。更重要的是,我们证明了能耗和性能优化之间存在权衡。为此,我们提出了 Zeus,这是一个优化框架,可通过自动为重复的 DNN 训练作业找到最佳的作业和 GPU 级配置来解决这一权衡。Zeus 使用在线探索-利用方法结合即时能源分析,避免了昂贵的离线测量,同时适应数据随时间的变化。我们的评估表明,Zeus 可以将不同工作负载的 DNN 训练能源效率提高 15.3%–75.8%。
截至 Entegris 发货时,信息是最新且准确的。Entegris 对此类信息不作任何明示或暗示的保证,包括但不限于对适销性和特定用途适用性的暗示保证。Entegris 对任何损失、伤害或其他后果不承担任何责任,包括因使用数据表中的信息或应用、使用或误用数据表中描述的 Entegris 产品而导致的任何人员或财产伤害和/或损害,无论是产品责任、疏忽还是其他原因。数据表中描述的 Entegris 产品的化学、物理和毒理学特性尚未得到彻底调查。用户有责任谨慎使用 Entegris 产品,并自行进行调查以确定产品是否适合其特定用途并适合其使用或应用方法。用户有责任确保其活动符合所有适用法律和法规。
在过去十年中,图形处理单元 (GPU) 的进步推动了人工智能 (AI)、高性能计算 (HPC) 和数据分析领域的重大发展。要在这些领域中的任何一个领域继续保持这一趋势,就需要能够不断扩展 GPU 性能。直到最近,GPU 性能一直是通过跨代增加流式多处理器 (SM) 的数量来扩展的。这是通过利用摩尔定律并在最先进的芯片技术节点中使用尽可能多的晶体管数量来实现的。不幸的是,晶体管的缩放速度正在放缓,并可能最终停止。此外,随着现代 GPU 接近光罩极限(约 800 平方毫米),制造问题进一步限制了最大芯片尺寸。而且,非常大的芯片会导致产量问题,使大型单片 GPU 的成本达到不理想的水平。GPU 性能扩展的解决方案是将多个物理 GPU 连接在一起,同时向软件提供单个逻辑 GPU 的抽象。一种方法是在印刷电路板 (PCB) 上连接多个 GPU。由于提供的 GPU 间带宽有限,在这些多 GPU 系统上扩展 GPU 工作负载非常困难。封装内互连(例如通过中介层技术)比封装外互连提供更高的带宽和更低的延迟,为将 GPU 性能扩展到少数 GPU 提供了一个有希望的方向 [1]。晶圆级集成更进一步,通过将预制芯片粘合在硅晶圆上,为具有数十个 GPU 的晶圆级 GPU 提供了途径 [2]。不幸的是,使用电互连在长距离上以低功耗提供高带宽密度从根本上具有挑战性,从而限制了使用电中介层技术进行 GPU 扩展。在本文中,我们提出了光子晶圆网络 (NoW) GPU 架构,其中预先制造和预先测试的 GPU 芯片和内存芯片安装在晶圆级中介层上,该中介层通过光子网络层连接 GPU 芯片,同时将每个 GPU 芯片与其本地内存堆栈电连接,如图 1 所示。光子-NoW GPU 架构的关键优势在于能够在相对较长的晶圆级距离(高达数十厘米)内以低功耗实现高带宽密度。本文的目标是展示光子-NoW 的愿景
摘要 - 由于高级集成电路的特征大小不断收缩,因此分辨率增强技术(RET)被利用来改善光刻过程中的可打印性。光学接近校正(OPC)是旨在补偿面罩以生成更精确的晶圆图像的最广泛使用的RET之一。在本文中,我们提出了一种基于级别的OPC方法,具有高面膜优化质量和快速收敛。为了抑制光刻过程中条件爆发的干扰,我们会提供一个新的过程窗口感知的成本函数。然后,采用了一种新颖的基于动量的进化技术,该技术取得了重大改进。我们还提出了一种自适应共轭梯度方法,该方法有望具有更高的优化稳定性和更少的消耗时间。此外,图形过程(GPU)被利用用于加速所提出的算法。我们将输出掩码从机器学习基于掩码优化流中作为输入和工作作为重新定位掩码的后过程。ICCAD 2013基准测试的实验结果表明,我们的算法在解决方案质量和运行时开销中均优于以前的所有OPC算法。
摘要 - 由于高级集成电路的特征大小不断收缩,因此分辨率增强技术(RET)被利用来改善光刻过程中的可打印性。光学接近校正(OPC)是旨在补偿面罩以生成更精确的晶圆图像的最广泛使用的RET之一。在本文中,我们提出了一种基于级别的OPC方法,具有高面膜优化质量和快速收敛。为了抑制光刻过程中条件爆发的干扰,我们会提供一个新的过程窗口感知的成本函数。然后,采用了一种新颖的基于动量的进化技术,该技术取得了重大改进。我们还提出了一种自适应共轭梯度方法,该方法有望具有更高的优化稳定性和更少的消耗时间。此外,图形过程(GPU)被利用用于加速所提出的算法。我们将输出掩码从机器学习基于掩码优化流中作为输入和工作作为重新定位掩码的后过程。ICCAD 2013基准测试的实验结果表明,我们的算法在解决方案质量和运行时开销中均优于以前的所有OPC算法。
tv9telugu.com › iit-k-11-01-2023 PDF 2023年1月11日 — 2023年1月11日 空气动力学实时控制以减少阻力、飞机设计、...计算生物学、量子计算、人机交互。
摘要 — 超维计算 (HDC) 已成为深度神经网络的替代轻量级学习解决方案。HDC 的一个关键特性是高度并行,可以促进硬件加速。然而,以前的 HDC 硬件实现很少关注 GPU 设计,这也导致效率低下,部分原因是在 GPU 上加速 HDC 的复杂性。在本文中,我们提出了 OpenHD,这是一个灵活且高性能的 GPU 驱动框架,用于自动将包括分类和聚类在内的一般 HDC 应用程序映射到 GPU。OpenHD 利用专门针对 HDC 的内存优化策略,最大限度地缩短对不同内存子系统的访问时间,并消除冗余操作。我们还提出了一种新颖的训练方法,以实现 HDC 训练中的数据并行性。我们的评估结果表明,所提出的训练方法可以快速达到目标准确率,将所需的训练周期减少了 4 × 。借助 OpenHD,用户无需领域专家知识即可部署 GPU 加速的 HDC 应用程序。与最先进的 GPU 驱动的 HDC 实现相比,我们在 NVIDIA Jetson TX2 上的评估表明,OpenHD 在基于 HDC 的分类和聚类方面分别快了 10.5 倍和 314 倍。与 GPU 上的非 HDC 分类和聚类相比,由 OpenHD 驱动的 HDC 在准确度相当的情况下快了 11.7 倍和 53 倍。
内存容量 32 个 DIMM 插槽,最高可达 8TB DDR4 内存 3200 MHz DIMM GPU 支持 8x A100 80GB SXM4 GPU,带有 NVLink
○ 与 A100 相比,新的第四代 Tensor Cores 的芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。在每个 SM 的基础上,与上一代 16 位浮点选项相比,Tensor Cores 在等效数据类型上提供 2 倍的 A100 SM MMA(矩阵乘法累加)计算速率,使用新的 FP8 数据类型提供 4 倍的 A100 速率。Sparsity 功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 加速高达 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。○ 与 A100 相比,IEEE FP64 和 FP32 芯片间处理速度提高了 3 倍,这是由于每个 SM 的时钟对时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。集群支持跨多个 SM 同时运行的多个线程块同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。● 新的 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型训练和推理。Transformer Engine 可智能管理并动态选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少 HBM3 的访问次数。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽
○ 与 A100 相比,新的第四代 Tensor Cores 芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。与上一代 16 位浮点选项相比,在每个 SM 上,Tensor Cores 在等效数据类型上提供 A100 SM 的 2 倍 MMA(矩阵乘法累加)计算速率,在使用新的 FP8 数据类型时提供 A100 的 4 倍速率。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 快 7 倍。两个例子包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。 ○ 与 A100 相比,由于每个 SM 的时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟频率,因此芯片到芯片的 IEEE FP64 和 FP32 处理速度提高了 3 倍。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。群集支持跨多个 SM 同时运行的多个线程块以同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持群集中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。 ● 新型 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer Engine 可以智能地管理和动态地选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少对 HBM3 的访问。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽