摘要 — 随着基于脉冲的深度学习推理应用在嵌入式系统中的增多,这些系统倾向于集成神经形态加速器(如 µ Brain)以提高能源效率。我们提出了一种基于 µ Brain 的可扩展多核神经形态硬件设计,以加速脉冲深度卷积神经网络 (SDCNN) 的计算。为了提高能源效率,内核在神经元和突触容量方面设计为异构的(即大核与小核),并且它们使用并行分段总线互连,与传统的基于网格的片上网络 (NoC) 相比,这可以降低延迟和能耗。我们提出了一个名为 SentryOS 的系统软件框架,将 SDCNN 推理应用程序映射到所提出的设计中。SentryOS 由一个编译器和一个运行时管理器组成。编译器利用大和小 µ Brain 内核的内部架构将 SDCNN 应用程序编译成子网络。运行时管理器将这些子网络调度到内核上并流水线执行以提高吞吐量。我们用五个常用的 SDCNN 推理应用程序评估了所提出的大多核神经形态设计和系统软件框架,并表明所提出的解决方案可降低能耗(37% 至 98%)、降低延迟(9% 至 25%)并提高应用程序吞吐量(20% 至 36%)。我们还表明 SentryOS 可以轻松扩展到其他脉冲神经形态加速器,例如 Loihi 和 DYNAP。索引术语 — 神经形态计算、脉冲深度卷积神经网络、多核、嵌入式系统、µ Brain
摘要。大规模脉冲神经网络模型模拟是提高我们对大脑动态和最终功能理解的重要工具。然而,即使是像老鼠这样的小型哺乳动物也具有大约 1 × 10 12 个突触连接,在模拟中,每个突触连接通常至少有一个浮点值。这相当于几 TB 的数据——对于一台台式机来说,这是不切实际的内存要求。因此,大型模型通常在分布式超级计算机上进行模拟,这很昂贵,并且将大规模建模限制在少数特权研究小组中。在这项工作中,我们描述了 GeNN 的扩展——我们的图形处理单元 (GPU) 加速脉冲神经网络模拟器——使其能够在触发脉冲时“即时”生成连接和突触权重,而不是存储和检索它们。我们发现 GPU 非常适合这种方法,因为它们具有原始计算能力,但由于内存带宽限制,在模拟脉冲神经网络时,这种能力通常未得到充分利用。我们用最新的 Macaque 视觉皮层模型证明了我们方法的价值,该模型由 4.13×106 个神经元和 24.2×109 个突触组成。使用我们的新方法,它可以在单个 GPU 上进行模拟 - 这是使更多研究人员能够进行大规模大脑建模的重要一步。我们的结果与在超级计算机上获得的结果相符,并且模拟在单个高端 GPU 上的运行速度比以前在 1000 多个超级计算机节点上的运行速度快 35%。
大规模脉冲神经网络模型模拟是增进我们对大脑动态和最终功能理解的重要工具。然而,即使是像老鼠这样的小型哺乳动物也具有大约 1 × 10 12 个突触连接,在模拟中,每个突触连接通常至少由一个浮点值表示。这相当于几 TB 的数据——对于一台台式机来说,这是不切实际的内存要求。因此,大型模型通常在分布式超级计算机上进行模拟,这很昂贵,并且将大规模建模限制在少数特权研究小组中。在这项工作中,我们描述了 GeNN(我们的图形处理单元 (GPU) 加速脉冲神经网络模拟器)的扩展,使其能够在触发脉冲时“即时”生成连接和突触权重,而不是存储和从内存中检索它们。我们发现 GPU 非常适合这种方法,因为它们具有原始计算能力,但由于内存带宽限制,在模拟脉冲神经网络时,这种能力通常未得到充分利用。我们用最新的 Macaque 视觉皮层模型证明了我们方法的价值,该模型由 4.13×106 个神经元和 24.2×109 个突触组成。使用我们的新方法,它可以在单个 GPU 上进行模拟 - 这是使更多研究人员能够进行大规模大脑建模的重要一步。我们的结果与超级计算机上的结果相符,并且模拟在单个高端 GPU 上的运行速度比以前在 1000 多个超级计算机节点上的运行速度快 35%。
摘要:在过去的几十年里,我们见证了量子计算的快速发展。在当前的噪声中型量子(NISQ)时代,量子机的能力受到退相干时间、门保真度和量子比特数量的限制。当前的量子计算应用距离真正的“量子至上”还很远,因为物理量子比特非常脆弱,只能纠缠几微秒。最近的研究使用量子最优控制来减少量子电路的延迟,从而有效地增加量子体积。然而,该技术的关键挑战是由于编译时间长而导致的开销大。在本文中,我们提出了 AccQOC,这是一种全面的静态/动态混合工作流程,使用 QOC(量子最优控制)将门组(相当于矩阵)转换为脉冲,并且编译时间预算合理。AccQOC 由静态预编译和加速动态编译组成。在使用考虑串扰的启发式映射算法将量子程序映射到量子电路之后,我们利用静态预编译为常用组生成脉冲,以消除它们的动态编译时间。脉冲是使用 QOC 生成的,并使用二分搜索确定延迟。对于新程序,我们使用相同的策略来生成组,从而避免为“覆盖”的组产生开销。动态编译通过加速脉冲生成来处理“未覆盖”的组。关键的见解是,可以基于相似组的生成脉冲更快地生成组的脉冲。我们建议通过生成有序的组序列来减少编译时间,其中序列中连续组之间的相似度总和最小。我们可以通过构建相似度图来找到序列 - 一个完整的图,其中每个顶点都是一个门组,边的权重是它连接的两个组之间的相似度,然后为 SG 构建最小生成树 (MST)。通过AccQOC方法论,我们达到了编译时间和总体延迟的平衡点,结果表明基于MST的加速编译相对于各组标准编译实现了9.88倍的编译加速,同时相对于基于门的编译平均保持了2.43倍的延迟降低。