物理信息神经网络 (PINN) 已成为解决科学计算问题的强大工具,从偏微分方程的求解到数据同化任务。使用 PINN 的优势之一是利用依赖于 CPU 和协处理器(如加速器)组合使用的机器学习计算框架来实现最大性能。这项工作使用量子处理单元 (QPU) 协处理器研究 PINN 的设计、实现和性能。我们设计了一个简单的量子 PINN,使用连续变量 (CV) 量子计算框架来解决一维泊松问题。我们讨论了不同的优化器、PINN 残差公式和量子神经网络深度对量子 PINN 精度的影响。我们表明,在量子 PINN 的情况下,优化器对训练景观的探索不如经典 PINN 有效,而基本随机梯度下降 (SGD) 优化器的表现优于自适应和高阶优化器。最后,我们重点介绍了量子和经典 PINN 在方法和算法上的差异,并概述了量子 PINN 开发的未来研究挑战。
量子计算机利用量子物理现象创建专用硬件,可以高效执行针对纠缠叠加数据的算法。该硬件必须连接到传统主机并由其控制。然而,可以说,迄今为止的主要好处在于重新表述问题以利用纠缠叠加,而不是使用奇异的物理机制来执行计算——这种重新表述往往会为传统计算机产生更高效的算法。并行位模式计算并不模拟量子计算,但提供了一种使用非量子、位级、大规模并行、SIMD 硬件来高效执行利用叠加和纠缠的广泛算法的方法。正如量子硬件需要传统主机一样,并行位模式硬件也需要。因此,当前的工作提出了 Tangled:一种简单的概念验证传统处理器设计,其中包含一个与集成并行位模式协处理器 (Qat) 紧密耦合的接口。通过构建指令集、为流水线实现构建完整的 Verilog 设计,以及观察接口在执行涉及纠缠、叠加值运算的简单量子启发算法中的有效性,研究了这种在传统计算和量子启发计算之间接口的可行性。
摘要 — 基因组序列比对是许多生物应用的核心。测序技术的进步产生了大量的数据,使序列比对成为生物信息学分析的关键瓶颈。现有的比对硬件加速器存在片上内存有限、数据移动成本高、比对算法优化不佳等问题。它们无法同时处理测序机产生的大量数据。在本文中,我们提出了一种基于 ReRAM 的加速器 RAPIDx,使用内存处理 (PIM) 进行序列比对。RAPIDx 通过软硬件协同设计实现了卓越的效率和性能。首先,我们提出了一种适用于 PIM 架构的自适应带状并行比对算法。与原有的基于动态规划的比对相比,所提出的算法显著降低了所需的复杂度、数据位宽和内存占用,而准确性下降却微不足道。然后,我们提出了实现所提算法的高效 PIM 架构。 RAPIDx 中的数据流实现了四级并行,我们在 ReRAM 中设计了一个原位比对计算流,与我们之前的 PIM 设计 RAPID 相比,效率和吞吐量提高了 5.5-9.7 倍。所提出的 RAPIDx 可重新配置为集成到现有基因组分析流程中的协处理器,以增强序列比对或编辑距离计算。在短读比对中,RAPIDx 分别比最先进的 CPU 和 GPU 库提供了 131.1 倍和 46.8 倍的吞吐量改进。与用于长读比对的 ASIC 加速器相比,RAPIDx 的性能高出 1.8-2.9 倍。
传统计算平台并未针对高效的数据传输进行优化,这使得在数据量呈指数增长的情况下进行大规模数据分析变得复杂。技术扩展不平衡进一步加剧了这种情况,因为数据通信而不是计算成为了关键的瓶颈 [5]。在这种情况下,硬件的专业化无济于事,除非以数据为中心。将计算能力紧密集成到内存中,即内存处理 (PIM),尤其有前景,因为数据传输的开销在大规模情况下变得令人望而却步。PIM 拥有丰富的设计空间,涵盖成熟的处理器和驻留在内存中的协处理器 [6]。然而,在 3D 堆叠出现之前,最先进的逻辑和内存技术的不兼容性阻碍了实用的原型设计。尽管如此,3D 堆叠只能实现近内存处理,NMP [1]、[2]、[8]。主要的挑战仍然是在不违反阵列规律的情况下融合计算和内存。新兴的自旋电子技术在逻辑和存储器的紧密集成方面表现出非凡的多功能性。本次演讲介绍了一种高密度、可重构的自旋电子存储器计算基板——计算 RAM (CRAM) [10]。其基本思想是在不破坏阵列规律性的情况下,为基于磁隧道结 (MTJ) 的存储器单元 [7]、[12] 添加计算能力。因此,每个存储器单元都可以作为输入或输出参与门级计算。计算不会造成中断,即,作为门输入的存储器单元不会丢失其存储的值。这一思想同样适用于基于自旋力矩转移 (STT) 和自旋轨道力矩 (SOT) 的技术。CRAM 可以实现不同类型的基本布尔门以形成功能完整的集合,因此对计算类型没有根本限制。如果使用 SOT (STT) 实现,CRAM 阵列中的每一列(行)一次只能有一个活动门,但是,所有列(行)中的计算可以并行进行。CRAM 通过重新配置内存阵列中的单元来实现逻辑功能,从而提供真正的内存计算。由于阵列中的所有单元都是相同的,因此逻辑门的输入和输出不需要限制在阵列中的特定物理位置。换句话说,CRAM 可以根据需要在内存阵列中的任何位置启动计算。
量子计算利用叠加和纠缠的原理,允许量子比特或量子位同时存在于多个状态中。这一特性使量子计算机能够以比传统计算机快得多的速度处理特定任务的数据,包括分解大数和解决复杂的优化问题。量子霸权的前景促使全球开展大量研究和开发工作,企业和研究机构竞相构建现实的量子处理器。尽管量子计算具有巨大的潜力,但要在现实应用中实现其优势仍需要克服艰巨的挑战。最大的障碍之一在于建立量子和经典结构之间的持续接口。量子处理器在敏感的量子王国中运行,必须与经典加法器进行通信,而不会损害量子数据的完整性。这种复杂的交互需要一种先进的 VLSI 架构,能够促进有效通信、最大限度地减少错误并优化量子-经典混合系统的整体性能。在量子计算接口的背景下混合 VLSI 需要摆脱传统策略。经典计算机遵循确定性原则,而量子结构则以概率方式运行,引入不确定性并要求同步条件。由于量子处理器产生具有固有概率不确定性的结果,VLSI 结构必须提供纠错机制和容错设计,以保持量子计算的可靠性。此外,经典和量子处理器之间的工作条件差异带来了额外的复杂性。量子处理器通常在极低的温度下工作以保持敏感量子态,而经典组件则在室温下工作。设计 VLSI 架构以促进绿色通信和跨这些温度梯度的数据传输需要创新的工程解决方案。在开发用于量子计算接口的 VLSI 架构的过程中,研究人员正在努力设计可扩展和模块化结构。量子处理器面临可扩展性挑战的风险,而 VLSI 在解决这些问题方面发挥着关键作用。可扩展架构的开发对于了解量子计算在解决实际问题方面的全部能力至关重要。尽管存在这些挑战,但目前量子计算接口 VLSI 架构的改进已取得显著进展。研究人员探索了各种策略,从集成到经典系统中的专用量子协处理器,到利用经典处理器完成精确任务同时将量子计算委托给专用处理器的混合架构。这些努力聚焦于不断发展的量子经典集成全景,其中 VLSI 架构是实现绿色和可扩展解决方案的关键。