NVIDIA® Turing™ GPU 架构于 2018 年推出,开创了 3D 图形和 GPU 加速计算的未来。Turing 为 PC 游戏、专业图形应用程序和深度学习推理提供了效率和性能方面的重大进步。使用新的基于硬件的加速器,Turing 融合了光栅化、实时光线追踪、AI 和模拟,使 PC 游戏具有令人难以置信的真实感,并带来了影院级的互动体验。两年后的 2020 年,NVIDIA® Ampere 架构整合了更强大的 RT Cores 和 Tensor Cores,以及新颖的 SM 结构,与 Turing GPU 相比,可提供 2 倍的 FP32 性能(时钟对时钟)。这些创新使 Ampere 架构在传统光栅图形中的运行速度比 Turing 快 1.7 倍,在光线追踪中的运行速度比 Turing 快 2 倍。
摘要 — 通过使用一组数学方程式捕捉一阶性能现象,分析模型使架构师能够比周期精确模拟快几个数量级地进行早期设计空间探索。但是,如果由于模型不准确而导致通过模型获得的结论具有误导性,则这种速度优势无效。因此,实用的分析模型需要足够准确,以捕捉广泛应用程序和架构配置中的关键性能趋势。在这项工作中,我们专注于分析建模新兴的内存发散 GPU 计算应用程序的性能,这些应用程序在机器学习和数据分析等领域很常见。这些应用程序的空间局部性较差,导致 L1 缓存频繁阻塞,因为应用程序发出的并发缓存未命中数量远远超过缓存可以支持的次数,从而削弱了 GPU 使用线程级并行 (TLP) 隐藏内存延迟的能力。我们提出了 GPU 内存发散模型 (MDM),该模型忠实地捕捉了内存发散应用程序的关键性能特征,包括内存请求批处理和过多的 NoC/DRAM 排队延迟。我们根据详细的模拟和真实硬件验证了 MDM,并报告了以下方面的重大改进:(1) 范围:除了非内存发散应用程序外,还能够对流行的内存发散应用程序进行建模;(2) 实用性:通过使用二进制插装而不是功能模拟来计算模型输入,速度提高了 6.1 倍;(3) 准确性:平均预测误差为 13.9%,而最先进的 GPUMech 模型为 162%。
摘要。数字签名是各种协议中提供完整性和真实性的基本构建块。量子计算的发展引发了人们对传统签名方案所提供的安全保障的担忧。CRYSTALS-Dilithium 是一种基于格密码学的高效后量子数字签名方案,已被美国国家标准与技术研究所选为标准化的主要算法。在这项工作中,我们提出了 Dilithium 的高吞吐量 GPU 实现。对于单个操作,我们采用一系列计算和内存优化来克服顺序约束、减少内存使用和 IO 延迟、解决银行冲突并缓解管道停顿。这为每个操作带来了高且平衡的计算吞吐量和内存吞吐量。在并发任务处理方面,我们利用任务级批处理来充分利用并行性并实现内存池机制以实现快速内存访问。我们提出了一种动态任务调度机制来提高多处理器占用率并显着缩短执行时间。此外,我们采用异步计算并启动多个流来隐藏数据传输延迟,并最大限度地发挥 CPU 和 GPU 的计算能力。在所有三个安全级别中,我们的 GPU 实现在商用和服务器级 GPU 上实现了超过 160 倍的签名加速和超过 80 倍的验证加速。这为每个任务实现了微秒级的摊销执行时间,提供了一种适用于实际系统中各种应用的高吞吐量和抗量子解决方案。
摘要。本文介绍了用于图像识别的深度卷积神经网络训练的性能-能量权衡研究。使用配备 Nvidia Quadro RTX 6000 和 Nvidia V100 GPU 的系统测试了几种具有代表性且广泛采用的网络模型,例如 Alexnet、VGG-19、Inception V3、Inception V4、Resnet50 和 Resnet152。使用 GPU 功率上限,我们发现除了默认配置之外,还可以最小化三个不同的指标:能量 (E)、能量延迟积 (EDP) 以及能量延迟总和 (EDS),从而节省大量能源,EDP 和 EDS 的性能损失较低到中等。具体来说,对于 Quadro 6000 和最小化 E,我们获得了 28.5%–32.5% 的节能效果;对于 EDP,我们获得了 25%–28% 的节能效果,平均性能损失为 4.5%–15.4%;对于 EDS (k=2),我们获得了 22%–27% 的节能效果,平均性能损失为 4.5%–13.8%。对于 V100,我们发现平均节能效果为 24%–33%;对于 EDP,我们获得了 23%–27% 的节能效果,平均性能损失为 13%–21%;对于 EDS (k=2),我们获得了 23.5%–27.3% 的节能效果,平均性能损失为 4.5%–13.8%。
GPU(图形处理单元)通常使用CUDA或OPENCL等低级语言进行编程。尽管这些语言允许实现非常优化的软件,但由于其低级性质,它们很难编程,在该软件中,程序员必须将协调代码(即如何创建和分发)与实际的计算代码混合在一起。在本文中,我们介绍了霍克(Hok),这是一种延伸到长生不老药功能性语言的信息,该语言允许促进高阶GPU内核,从而使程序能够明确地将协调与计算分开。HOK系统为编写可以使用计算代码参数化的低级GPU内核提供了DSL(特定领域的语言)。HOK允许在主机代码中创建和引用范围的功能,包括匿名功能,以便在启动内核之前配置它们。我们证明HOK可用于实施高级抽象,例如算法 - 麦克骨骼和数组综合。我们还提出了证明HOK当前实施的可用性的实验,并表明与纯长生不老药相比,可以获得高速加速,特别是在具有大量输入的集体密集型程序中。
摘要 — 速度效率、内存优化和量子抗性对于保障云计算环境的性能和安全性至关重要。全同态加密 (FHE) 通过在无需解密的情况下对加密数据进行计算来满足这一需求,从而保护数据隐私。此外,基于格的 FHE 是量子安全的,可以防御潜在的量子计算机攻击。然而,当前 FHE 方案的性能仍然不令人满意,主要是因为操作数的长度和与几个资源密集型操作相关的计算成本。在这些操作中,密钥切换是最苛刻的过程之一,因为它涉及在更大的循环环中进行计算所需的复杂算术运算。在这项研究中,我们介绍了一种新算法,该算法在密钥切换的数论变换 (NTT) 中实现了线性复杂度。该算法提供了与最先进算法相当的效率,同时显著简单且消耗更少的 GPU 内存。值得注意的是,它将空间消耗减少了高达 95%,对 GPU 内存非常友好。通过优化 GPU 性能,我们的实现与基线方法和当前最先进的方法相比实现了高达 2.0 倍的加速。该算法有效地平衡了简单性和性能,从而增强了现代硬件平台上的加密计算,并为云计算环境中更实用、更高效的 FHE 实现铺平了道路。
高保真计算流体力学模拟通常与大量计算需求相关,而每一代超级计算机的出现都对计算能力提出了更高的要求。然而,需要进行大量的研究工作才能释放基于日益复杂的架构的前沿系统(目前称为前百亿亿次级系统)的计算能力。在本文中,我们介绍了计算力学代码 Alya 中实现的方法。我们详细描述了为充分利用不同并行级别而实施的并行化策略,以及一种用于有效利用异构 CPU/GPU 架构的新型共执行方法。后者基于具有动态负载平衡机制的多代码共执行方法。已针对使用 NVIDIA Volta V100 GPU 加速的 POWER9 架构上的飞机模拟对所有提出的策略的性能进行了评估。
环境和设备:· 环境温度范围................................. -10 至 40 摄氏度· 湿度................................................... <90%,无凝结· 海拔................................................... 所有规格均在海拔 < 2000m 处引用· 噪声................................................... < 50dBA @ 1m· 整体效率................................................... 85 至 91% 取决于型号· EMC................................................... 优于 EN55-022B· 机柜................................................... 镀锌钢,粉末涂层· 前面板................................................... 5U x 19”,阳极氧化铝· 机柜防护................................................... IP21· 仪表................................................... 数字读数输出输出安培、伏特(相间和相间中性线)、赫兹、千瓦和每相的功率因数。· CE 标志
○ 与 A100 相比,新的第四代 Tensor Cores 芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。与上一代 16 位浮点选项相比,在每个 SM 上,Tensor Cores 在等效数据类型上提供 A100 SM 的 2 倍 MMA(矩阵乘法累加)计算速率,在使用新的 FP8 数据类型时提供 A100 的 4 倍速率。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 快 7 倍。两个例子包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。 ○ 与 A100 相比,由于每个 SM 的时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟频率,因此芯片到芯片的 IEEE FP64 和 FP32 处理速度提高了 3 倍。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。群集支持跨多个 SM 同时运行的多个线程块以同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持群集中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。 ● 新型 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型的训练和推理。Transformer Engine 可以智能地管理和动态地选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少对 HBM3 的访问。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽
于2018年启动,NVIDIA'S®Turing™GPU体系结构在3D图形和GPU加速计算的未来中使用。图灵为PC游戏,专业图形应用程序和深度学习推论提供了效率和性能的重大进步。使用新的基于硬件的加速器,图灵融合的栅格化,实时射线跟踪,AI和仿真,在专业内容创建软件,电影质量的交互式体验和PC游戏中启用令人难以置信的现实主义。两年后的2020年,Nvidia Ampere架构结合了功能更强大的RT芯和张量芯,以及与图灵GPU相比提供了2x fp32性能的新型SM结构。这些创新使安培体系结构的运行速度比传统的栅格图形图纸快1.7倍,在射线追踪中最多可快2倍。