进化增强学习(EVORL)已成为一种有前途的方法,可以通过将进化计算(EC)与RL整合(EC)范式来克服传统强化学习(RL)的局限性。但是,基于人群的EC的性质大大提高了计算成本,从而限制了大规模设置中算法设计选择和可扩展性的探索。为了应对这一挑战,我们介绍了Evorl 1,这是针对GPU加速的第一个端到端EVORL框架。该框架对加速器(包括环境模拟和EC过程)执行了整个培训管道,通过矢量化和编译技术利用层次并行性,以实现较高的速度和可扩展性。此设计可以在一台计算机上进行有效培训。In addition to its performance-oriented design, EvoRL offers a comprehensive platform for EvoRL research, encompassing implementations of traditional RL algorithms (e.g., A2C, PPO, DDPG, TD3, SAC), Evolutionary Algorithms (e.g., CMA-ES, OpenES, ARS), and hybrid EvoRL paradigms such as Evolutionary-guided RL (例如,ERL,CEM-RL)和基于群体的自动(例如PBT)。该框架的模块化体系结构和用户友好的接口使研究人员可以无缝整合新组件,自定义算法并进行公平的基准测试和消融研究。该项目是开源的,可在以下网址找到:https://github.com/emi-group/evorl。
摘要 — 近年来,量子计算取得了重大发展,并在许多应用领域确立了其霸主地位。虽然量子硬件可以通过云环境供公众使用,但仍需要一个强大而高效的量子电路模拟器来研究约束条件并促进量子计算发展,例如量子算法开发和量子设备架构探索。在本文中,我们观察到大多数公开可用的量子电路模拟器(例如 IBM 的 QISKit、Microsoft 的 QDK 和 Google 的 Qsim-Cirq)在量子比特数量增加时模拟速度慢且可扩展性差。为此,我们系统地研究了量子电路模拟(QCS)的缺陷,并提出了 Q-GPU,这是一个利用具有全面优化的 GPU 来实现高效且可扩展的 QCS 的框架。具体而言,Q-GPU 具有 i)主动状态幅度转移、ii)零状态幅度修剪、iii)延迟量子比特参与和 iv)无损非零状态幅度压缩。在九个代表性量子电路上的实验结果表明,Q-GPU 显著缩短了基于 GPU 的 QCS 的执行时间,缩短了 71.89%(加速 3.55 倍)。Q-GPU 还分别比最先进的 OpenMP CPU 实现、Google Qsim-Cirq 模拟器和 Microsoft QDK 模拟器快 1.49 倍、2.02 倍和 10.82 倍。
摘要 — 布局是现代超大规模集成电路 (VLSI) 设计中的重要步骤。详细布局是整个设计流程中被密集调用的布局细化程序,因此其效率对设计收敛至关重要。然而,由于大多数详细布局技术本质上是贪婪和顺序的,因此它们通常难以并行化。在这项工作中,我们提出了一个并发详细布局框架 ABCDPlace,利用多线程和 GPU 加速。我们为广泛采用的顺序详细布局技术提出了基于批处理的并发算法,例如独立集匹配、全局交换和局部重新排序。实验结果表明,在 ISPD 2005 竞赛基准上,ABCDPlace 可以比使用多线程 CPU 的顺序实现快 2 × - 5 × 的运行时间,使用 GPU 可以比顺序实现快 10 × 以上,而不会降低质量。在更大的工业基准测试中,我们展示了比最先进的顺序详细布局器快 16 倍以上的 GPU 加速。 ABCDPlace 在一分钟内完成一千万个单元的工业设计的详细布局。
Qi Huang 1 Yangrui Chen 1 Zhi Zhang 1 Yanghua Peng 1 Xiang Li 1 Cong Xie 1 Shibiao Nong 1 Yulu Jia 1 Sun He 1 Hongmin Chen 1 Zhihao Bai 1 Qi Hou 1 Shipeng Yan 1 Ding Zhou 1 Yiyao Sheng 1 Zhuo Jiang 1 Haohan Xu 1 Haoran Wei 1 Zhang Zhang 1 Pengfei Nie 1 Leqi Zou 1 Sida Zhao 1 Liang Xiang 1 Zherui Liu 1 Zhe Li 1 Xiaoying Jia 1 Jianxi Ye 1 Xin Jin 2 , Xin Liu 1
摄入和转换输入数据的b缩合输入管道是训练机学习(ML)模型的重要组成部分。然而,实施有效的输入管道是一项挑战,因为它需要有关并行性,异步和可变性信息的可变性的推理。我们对Google数据中心中超过200万ML职位的分析表明,大量的模型培训工作可能会从更快的输入数据管道中受益。同时,我们的分析表明,大多数作业都不饱和主机硬件,指向基于软件的瓶颈的方向。是由这些发现的动机,我们提出了水管工,这是一种在ML输入管道中找到瓶颈的工具。水管工使用可扩展且可解释的操作分析分析模型来自动调整并行性,预取,并在主机资源约束下进行缓存。在五个代表性的ML管道中,水管工的速度最高为47倍,用于误导的管道。通过自动化缓存,水管工的端到端速度超过50%,与最先进的调谐器相比。
大规模脉冲神经网络模型模拟是增进我们对大脑动态和最终功能理解的重要工具。然而,即使是像老鼠这样的小型哺乳动物也具有大约 1 × 10 12 个突触连接,在模拟中,每个突触连接通常至少由一个浮点值表示。这相当于几 TB 的数据——对于一台台式机来说,这是不切实际的内存要求。因此,大型模型通常在分布式超级计算机上进行模拟,这很昂贵,并且将大规模建模限制在少数特权研究小组中。在这项工作中,我们描述了 GeNN(我们的图形处理单元 (GPU) 加速脉冲神经网络模拟器)的扩展,使其能够在触发脉冲时“即时”生成连接和突触权重,而不是存储和从内存中检索它们。我们发现 GPU 非常适合这种方法,因为它们具有原始计算能力,但由于内存带宽限制,在模拟脉冲神经网络时,这种能力通常未得到充分利用。我们用最新的 Macaque 视觉皮层模型证明了我们方法的价值,该模型由 4.13×106 个神经元和 24.2×109 个突触组成。使用我们的新方法,它可以在单个 GPU 上进行模拟 - 这是使更多研究人员能够进行大规模大脑建模的重要一步。我们的结果与超级计算机上的结果相符,并且模拟在单个高端 GPU 上的运行速度比以前在 1000 多个超级计算机节点上的运行速度快 35%。
选择正确的 GPU . ... .................. ... ..................................................................................................................................................................................6 RP05500/5 - GPU 3000/80 ........................................................................................................................................................................................................................................................................7 RP05500/6 - GPU 2000 ........................................................................................................................................................................................................................................................................................................................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 RP05500/9, RP05500/10 - Coolspool 29 和 58 . . . . . . . . . . . . . . . . . . 11 COOlSpOOl™ 坡道推车 12-15
1 英特尔公司可编程解决方案事业部 2 多伦多大学和矢量研究所 3 卡内基梅隆大学 { andrew.boutros, eriko.nurvitadhi } @intel.com 摘要 — 人工智能 (AI) 的重要性和计算需求日益增长,导致了领域优化硬件平台的出现。例如,Nvidia GPU 引入了专门用于矩阵运算的张量核心,以加速深度学习 (DL) 计算,从而使 T4 GPU 的峰值吞吐量高达 130 int8 TOPS。最近,英特尔推出了其首款针对 AI 优化的 14nm FPGA Stratix 10 NX,其内置 AI 张量模块可提供高达 143 int8 TOPS 的估计峰值性能,堪比 12nm GPU。然而,实践中重要的不是峰值性能,而是目标工作负载上实际可实现的性能。这主要取决于张量单元的利用率,以及向/从加速器发送数据的系统级开销。本文首次对英特尔的 AI 优化 FPGA Stratix 10 NX 进行了性能评估,并与最新的 AI 优化 GPU Nvidia T4 和 V100 进行了比较,这些 GPU 都运行了大量的实时 DL 推理工作负载。我们增强了 Brainwave NPU 覆盖架构的重新实现,以利用 FPGA 的 AI 张量块,并开发了工具链支持,使用户能够仅通过软件对张量块进行编程,而无需在循环中使用 FPGA EDA 工具。我们首先将 Stratix 10 NX NPU 与没有张量块的 Stratix 10 GX/MX 版本进行比较,然后对 T4 和 V100 GPU 进行了详细的核心计算和系统级性能比较。我们表明,我们在 Stratix 10 NX 上增强的 NPU 实现了比 GPU 更好的张量块利用率,在批处理 6 时,与 T4 和 V100 GPU 相比,平均计算速度分别提高了 24 倍和 12 倍。即使在允许批处理大小为 32 的宽松延迟约束下,我们仍分别实现了与 T4 和 V100 GPU 相比 5 倍和 2 倍的平均速度提升。在系统级别,FPGA 的细粒度灵活性及其集成的 100 Gbps 以太网允许以比通过 128 Gbps PCIe 本地访问 V100 GPU 少 10 倍和 2 倍的系统开销延迟进行远程访问,分别用于短序列和长序列 RNN。索引术语 — FPGA、GPU、深度学习、神经网络
摘要。大规模脉冲神经网络模型模拟是提高我们对大脑动态和最终功能理解的重要工具。然而,即使是像老鼠这样的小型哺乳动物也具有大约 1 × 10 12 个突触连接,在模拟中,每个突触连接通常至少有一个浮点值。这相当于几 TB 的数据——对于一台台式机来说,这是不切实际的内存要求。因此,大型模型通常在分布式超级计算机上进行模拟,这很昂贵,并且将大规模建模限制在少数特权研究小组中。在这项工作中,我们描述了 GeNN 的扩展——我们的图形处理单元 (GPU) 加速脉冲神经网络模拟器——使其能够在触发脉冲时“即时”生成连接和突触权重,而不是存储和检索它们。我们发现 GPU 非常适合这种方法,因为它们具有原始计算能力,但由于内存带宽限制,在模拟脉冲神经网络时,这种能力通常未得到充分利用。我们用最新的 Macaque 视觉皮层模型证明了我们方法的价值,该模型由 4.13×106 个神经元和 24.2×109 个突触组成。使用我们的新方法,它可以在单个 GPU 上进行模拟 - 这是使更多研究人员能够进行大规模大脑建模的重要一步。我们的结果与在超级计算机上获得的结果相符,并且模拟在单个高端 GPU 上的运行速度比以前在 1000 多个超级计算机节点上的运行速度快 35%。
• 过滤:GPU 可以在采样期间过滤具有像素格式的纹理。 • 写入:GPU 可以使用像素格式逐像素写入纹理。2 • 颜色:GPU 可以使用具有像素格式的纹理作为颜色渲染目标。 • 混合:GPU 可以混合具有像素格式的纹理。 • MSAA:GPU 可以使用具有像素格式的纹理作为多重采样抗锯齿 (MSAA) 数据的目标。 • 稀疏:GPU 支持具有像素格式的纹理的稀疏纹理分配。 • 解析:GPU 可以使用具有像素格式的纹理作为多重采样抗锯齿 (MSAA) 解析操作的源。