摘要 — 近年来,量子计算取得了重大发展,并在许多应用领域确立了其霸主地位。虽然量子硬件可以通过云环境供公众使用,但仍需要一个强大而高效的量子电路模拟器来研究约束条件并促进量子计算发展,例如量子算法开发和量子设备架构探索。在本文中,我们观察到大多数公开可用的量子电路模拟器(例如 IBM 的 QISKit、Microsoft 的 QDK 和 Google 的 Qsim-Cirq)在量子比特数量增加时模拟速度慢且可扩展性差。为此,我们系统地研究了量子电路模拟(QCS)的缺陷,并提出了 Q-GPU,这是一个利用具有全面优化的 GPU 来实现高效且可扩展的 QCS 的框架。具体而言,Q-GPU 具有 i)主动状态幅度转移、ii)零状态幅度修剪、iii)延迟量子比特参与和 iv)无损非零状态幅度压缩。在九个代表性量子电路上的实验结果表明,Q-GPU 显著缩短了基于 GPU 的 QCS 的执行时间,缩短了 71.89%(加速 3.55 倍)。Q-GPU 还分别比最先进的 OpenMP CPU 实现、Google Qsim-Cirq 模拟器和 Microsoft QDK 模拟器快 1.49 倍、2.02 倍和 10.82 倍。
摘要。DOT-PRODUCT是许多机器学习和科学计算算法中广泛使用的操作。最近,NVIDIA在现代GPU架构中引入了DOT-产品指令(DP2A和DP4A),目的是加速机器学习和科学计算应用程序。这些点 - 产品指令允许在时钟周期中计算多和添加指令,与常规的32位整数单元相比,有效地实现了更高的吞吐量。在本文中,我们表明DOT-产品指令也可以用于加速基质 - 型质子和多项式卷积操作,这些操作通常在基于量子后晶格后的密码学方案中发现。特别是我们提出了高度优化的Frodokem实现,其中矩阵 - 倍数通过点 - 产品指令加速。我们还提出了专门设计的数据结构,该结构允许使用DOT-产品指令来加速多项式卷积,从而有效地实现了Saber钥匙封装机制。拟议的Frodokem实施实现了4。每秒密钥交换操作比V100 GPU上的最先进的实施情况更高。本文还介绍了在GPU平台上的第一次实施,分别在RTX3080,V100和T4 GPU上实现了124,418、120,463和31,658密钥交换操作。由于基矩阵 - 多项式卷积操作是基于晶格的加密方案中最耗时的操作,因此我们提出的技术很可能有助于其他类似的算法。在各种GPU平台上提出的KEM的高吞吐量实现允许从服务器中填充重型计算(KEMS)。这对于许多新兴应用程序(如物联网和云计算)非常有用。
1 英特尔公司可编程解决方案事业部 2 多伦多大学和矢量研究所 3 卡内基梅隆大学 { andrew.boutros, eriko.nurvitadhi } @intel.com 摘要 — 人工智能 (AI) 的重要性和计算需求日益增长,导致了领域优化硬件平台的出现。例如,Nvidia GPU 引入了专门用于矩阵运算的张量核心,以加速深度学习 (DL) 计算,从而使 T4 GPU 的峰值吞吐量高达 130 int8 TOPS。最近,英特尔推出了其首款针对 AI 优化的 14nm FPGA Stratix 10 NX,其内置 AI 张量模块可提供高达 143 int8 TOPS 的估计峰值性能,堪比 12nm GPU。然而,实践中重要的不是峰值性能,而是目标工作负载上实际可实现的性能。这主要取决于张量单元的利用率,以及向/从加速器发送数据的系统级开销。本文首次对英特尔的 AI 优化 FPGA Stratix 10 NX 进行了性能评估,并与最新的 AI 优化 GPU Nvidia T4 和 V100 进行了比较,这些 GPU 都运行了大量的实时 DL 推理工作负载。我们增强了 Brainwave NPU 覆盖架构的重新实现,以利用 FPGA 的 AI 张量块,并开发了工具链支持,使用户能够仅通过软件对张量块进行编程,而无需在循环中使用 FPGA EDA 工具。我们首先将 Stratix 10 NX NPU 与没有张量块的 Stratix 10 GX/MX 版本进行比较,然后对 T4 和 V100 GPU 进行了详细的核心计算和系统级性能比较。我们表明,我们在 Stratix 10 NX 上增强的 NPU 实现了比 GPU 更好的张量块利用率,在批处理 6 时,与 T4 和 V100 GPU 相比,平均计算速度分别提高了 24 倍和 12 倍。即使在允许批处理大小为 32 的宽松延迟约束下,我们仍分别实现了与 T4 和 V100 GPU 相比 5 倍和 2 倍的平均速度提升。在系统级别,FPGA 的细粒度灵活性及其集成的 100 Gbps 以太网允许以比通过 128 Gbps PCIe 本地访问 V100 GPU 少 10 倍和 2 倍的系统开销延迟进行远程访问,分别用于短序列和长序列 RNN。索引术语 — FPGA、GPU、深度学习、神经网络
摘要 基于反向传播的现代深度学习方法越来越受欢迎,并已用于多个领域和应用领域。与此同时,还有其他鲜为人知的机器学习算法,它们具有成熟而坚实的理论基础,但其性能仍未被探索。类似大脑的贝叶斯置信传播神经网络 (BCPNN) 就是一个例子。在本文中,我们介绍了 StreamBrain——一个允许基于 BCPNN 的神经网络实际部署在高性能计算系统中的框架。StreamBrain 是一种领域特定语言 (DSL),概念上类似于现有的机器学习 (ML) 框架,并支持 CPU、GPU 甚至 FPGA 的后端。我们通过经验证明 StreamBrain 可以在几秒钟内训练著名的 ML 基准数据集 MNIST,并且我们是第一个在 STL-10 大小网络上展示 BCPNN 的人。我们还展示了如何使用 StreamBrain 进行自定义浮点格式训练,并说明了使用 FPGA 对 BCPNN 使用不同 bfloat 变体的影响。关键词 HPC、无监督学习、表示学习、神经网络、AI、新兴机器学习、BCPNN、GPU、FPGA
摘要 — 布局是现代超大规模集成电路 (VLSI) 设计中的重要步骤。详细布局是整个设计流程中被密集调用的布局细化程序,因此其效率对设计收敛至关重要。然而,由于大多数详细布局技术本质上是贪婪和顺序的,因此它们通常难以并行化。在这项工作中,我们提出了一个并发详细布局框架 ABCDPlace,利用多线程和 GPU 加速。我们为广泛采用的顺序详细布局技术提出了基于批处理的并发算法,例如独立集匹配、全局交换和局部重新排序。实验结果表明,在 ISPD 2005 竞赛基准上,ABCDPlace 可以比使用多线程 CPU 的顺序实现快 2 × - 5 × 的运行时间,使用 GPU 可以比顺序实现快 10 × 以上,而不会降低质量。在更大的工业基准测试中,我们展示了比最先进的顺序详细布局器快 16 倍以上的 GPU 加速。 ABCDPlace 在一分钟内完成一千万个单元的工业设计的详细布局。
随着量子硬件的快速发展,量子电路的高效模拟已变得不可或缺。主要的模拟方法基于状态向量和张量网络。随着目前量子器件中量子比特和量子门的数量不断增加,传统的基于状态向量的量子电路模拟方法由于希尔伯特空间的庞大和广泛的纠缠而显得力不从心。因此,野蛮的张量网络模拟算法成为此类场景下的唯一可行解决方案。张量网络模拟算法面临的两个主要挑战是最优收缩路径寻找和在现代计算设备上的高效执行,而后者决定了实际的效率。在本研究中,我们研究了此类张量网络模拟在现代 GPU 上的优化,并从计算效率和准确性两个方面提出了通用的优化策略。首先,我们提出将关键的爱因斯坦求和运算转化为 GEMM 运算,利用张量网络模拟的具体特性来放大 GPU 的效率。其次,通过分析量子电路的数据特性,我们采用扩展精度保证模拟结果的准确性,并采用混合精度充分发挥GPU的潜力,使模拟速度更快、精度更高。数值实验表明,在Sycamore的18周期情况下,我们的方法可以将随机量子电路样本的验证时间缩短3.96倍,在一台A100上持续性能超过21 TFLOPS。该方法可以轻松扩展到20周期的情况,保持相同的性能,与最先进的基于CPU的结果相比加速12.5倍,与文献中报道的最先进的基于GPU的结果相比加速4.48-6.78倍。此外,本文提出的策略对
Qi Huang 1 Yangrui Chen 1 Zhi Zhang 1 Yanghua Peng 1 Xiang Li 1 Cong Xie 1 Shibiao Nong 1 Yulu Jia 1 Sun He 1 Hongmin Chen 1 Zhihao Bai 1 Qi Hou 1 Shipeng Yan 1 Ding Zhou 1 Yiyao Sheng 1 Zhuo Jiang 1 Haohan Xu 1 Haoran Wei 1 Zhang Zhang 1 Pengfei Nie 1 Leqi Zou 1 Sida Zhao 1 Liang Xiang 1 Zherui Liu 1 Zhe Li 1 Xiaoying Jia 1 Jianxi Ye 1 Xin Jin 2 , Xin Liu 1
• 性能监控和错误分析:遥测系统跟踪与 AI 模型相关的关键性能指标,例如准确度、精确度、召回率和计算资源利用率(例如 CPU、GPU 使用率),这些指标对于评估训练和推理作业期间的模型有效性至关重要。这些系统还可以深入了解训练和推理操作期间的错误率和故障模式,并帮助识别可能影响 AI 性能的问题,例如模型漂移、数据质量问题或算法错误。这些系统的示例包括 Juniper Apstra 仪表板、TIG Stack 和 Elasticsearch。
白皮书 Supermicro® 系统采用 NVIDIA GPU,利用 NVIDIA TensorRT 实现最佳 AI 推理性能
• DLB 不使用端口 BW 来计算链路质量。相反,链路质量基于最近通过每个 ECMP 链路传输的流量,以及每个 ECMP 链路上排队等待传输的流量。这可能导致流量被分配到较低 BW 的链路而不是较高 BW 的链路,从而导致拥塞。此外,如果链路质量下降,已分配给链路的流量将不会被重新分配,除非该链路暂停的时间长于不活动间隔。可以调整端口质量指标和不活动间隔以克服这种情况;请参阅自定义 DLB 的出口端口链路质量指标。此外,请考虑实施反应路径重新平衡。