量子力学与技术的结合有许多前景,其中量子计算机可能是最引人注目的一个。尽管有这种说法,量子计算机尚未出现。原因是量子力学和技术存在相互竞争的要求。量子计算机的比特,即量子比特,可以同时具有值 | 0 ⟩ 和 | 1 ⟩,而传统计算机的比特要么是 0,要么是 1。这称为叠加。其次,量子比特是纠缠的,这意味着它们的值是相连的。量子计算机的优势在于纠缠和叠加的结合:所有量子比特同时执行复杂的计算,同时它们也同时具有所有可能的值。这使得量子计算机比传统计算机快得多。量子计算机中的量子比特应该用量子力学对象来实现,并且它们应该能够进行不受干扰的相干演化。换句话说,它们应该是轻的、冷的和孤立的。另一方面,硬件实现要求系统足够大,并与测量设备足够强地耦合。这种冲突非常普遍,来自不同物理学领域的各种解决方案都有不同的提案。例如,量子信息可以编码在分子中电子的各种自旋(NMR 方法)[96]、固态电子的自旋 [53] 或捕获离子的内部状态 [15] 中。但还有更多的提案 [44],包括一些乍一看非常奇特的提案,比如基于二维系统中 N 粒子配置拓扑的量子比特 [75, 8]。本篇论文研究了使用气相里德堡原子的状态作为量子比特的想法,这些原子是处于高度激发态的原子。量子计算机需要涉及多个量子位的运算,特别是 XOR 运算,这需要量子位之间的相互作用。相互作用的里德堡原子系统可以执行此任务,并且具有一些独特的优势:
随着量子硬件的快速发展,量子电路的高效模拟已变得不可或缺。主要的模拟方法基于状态向量和张量网络。随着目前量子器件中量子比特和量子门的数量不断增加,传统的基于状态向量的量子电路模拟方法由于希尔伯特空间的庞大和广泛的纠缠而显得力不从心。因此,野蛮的张量网络模拟算法成为此类场景下的唯一可行解决方案。张量网络模拟算法面临的两个主要挑战是最优收缩路径寻找和在现代计算设备上的高效执行,而后者决定了实际的效率。在本研究中,我们研究了此类张量网络模拟在现代 GPU 上的优化,并从计算效率和准确性两个方面提出了通用的优化策略。首先,我们提出将关键的爱因斯坦求和运算转化为 GEMM 运算,利用张量网络模拟的具体特性来放大 GPU 的效率。其次,通过分析量子电路的数据特性,我们采用扩展精度保证模拟结果的准确性,并采用混合精度充分发挥GPU的潜力,使模拟速度更快、精度更高。数值实验表明,在Sycamore的18周期情况下,我们的方法可以将随机量子电路样本的验证时间缩短3.96倍,在一台A100上持续性能超过21 TFLOPS。该方法可以轻松扩展到20周期的情况,保持相同的性能,与最先进的基于CPU的结果相比加速12.5倍,与文献中报道的最先进的基于GPU的结果相比加速4.48-6.78倍。此外,本文提出的策略对
矩阵乘法 (MatMul) 通常占据大型语言模型 (LLM) 总体计算成本的主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度,这一成本只会增长。在本研究中,我们证明了 MatMul 操作可以完全从 LLM 中消除,同时在十亿参数规模下保持强劲性能。我们的实验表明,我们提出的无 MatMul 模型的性能与最先进的 Transformer 相当,后者在推理过程中需要更大的内存,并且参数规模至少高达 27 亿。我们研究了缩放规律,发现我们的无 MatMul 模型与全精度 Transformer 之间的性能差距随着模型规模的增加而缩小。我们还提供了该模型的 GPU 高效实现,与未优化的基准相比,在训练期间可将内存使用量降低高达 61%。通过在推理过程中使用优化的内核,与未优化的模型相比,我们的模型的内存消耗可减少 10 倍以上。为了准确量化我们架构的效率,我们在 FPGA 上构建了一个定制的硬件解决方案,该解决方案充分利用了 GPU 无法处理的轻量级运算。我们以 13W 的功耗处理了数十亿参数规模的模型,其吞吐量远超人类可读的吞吐量,使 LLM 的效率更接近人脑的水平。这项工作不仅展示了 LLM 在保持高效性能的同时可以精简到何种程度,还指出了未来加速器在处理下一代轻量级 LLM 时应针对哪些类型的运算进行优化。我们的代码实现可在 https://github.com/ridgerchu/matmulfreellm 获取。
如果我们在这个基上用 T 2 门代替 T 门,情况就会发生显著变化。执行幺正运算 P=T 2 的门称为相位门。基 {H, P, CNOT} 上的量子电路通常被称为稳定器电路或克利福德电路。Gottesman-Knill 定理指出,基 {H, P, CNOT} 上的电路并不比经典计算机更强大(例如,参见 [6,第 10.5.4 章])。还推导出克利福德电路的更强限制 [1, 3]。最近,Buhrman 等人 [3] 表明,每个能用克利福德电路计算的布尔函数都可以写成输入变量子集的奇偶校验或其否定。
超维计算 (HDC) 是一种新兴的计算框架,其灵感来自大脑,它对具有数千个维度的向量进行操作以模拟认知。与对数字进行操作的传统计算框架不同,HDC 与大脑一样,使用高维随机向量,并且能够进行一次性学习。HDC 基于一组定义明确的算术运算,具有很强的错误恢复能力。HDC 的核心操作以批量逐位方式操纵 HD 向量,提供了许多利用并行性的机会。不幸的是,在传统的冯·诺依曼架构中,HD 向量在处理器和内存之间的连续移动会使认知任务变得非常缓慢且耗能。硬件加速器只能略微改善相关指标。相比之下,即使是内存中 HDC 框架的部分实现也可以提供相当大的性能/能量增益,正如先前使用忆阻器的工作所证明的那样。本文介绍了一种基于赛道内存 (RTM) 的架构,用于在内存中执行和加速整个 HDC 框架。所提出的解决方案利用 RTM 中跨多个域的读取操作(称为横向读取 (TR))来实现异或 (XOR) 和加法运算,从而只需要极少的额外 CMOS 电路。为了最大限度地减少 CMOS 电路开销,提出了一种基于 RTM 纳米线的计数机制。以语言识别为示例工作负载,与最先进的内存实现相比,所提出的 RTM HDC 系统将能耗降低了 8.6 倍。与使用 FPGA 实现的专用硬件设计相比,基于 RTM 的 HDC 处理在整体运行时间和能耗方面分别展示了 7.8 倍和 5.3 倍的改进。
在低功耗边缘设备上运行的神经网络有助于在有限的基础设施下实现普适计算。当此类边缘设备部署在没有必要防护的传统和极端环境中时,它们必须具有容错能力才能可靠运行。作为一项试点研究,我们专注于将容错功能嵌入神经网络,提出一种新颖的选择性乘法累积零优化技术,该技术基于提供给神经网络神经元的输入值是否为零。如果值为零,则绕过相应的乘法累积运算。我们对优化技术的实施进行了使用 ∼ 14 MeV 中子的辐射测试活动,发现提出的优化技术将测试神经网络的容错能力提高了 1.78 倍。
代数、实数和复数代数、实数和复数分析、几何与分析、几何与拓扑、概率与拓扑、概率与统计、模糊统计、模糊数学、随机数学、随机过程、微分过程、微分方程、运算方程、运筹学、金融研究、金融数学、离散数学、离散数学、软数学、软计算、人工智能、算法、智能、算法、数据库管理数据库管理系统、机器学习、系统、机器学习、云计算、云计算、动力系统、动力系统、数学物理、数学物理、量子计算、量子计算、工程经济学、工程经济学与会计、计算数学、生物数学、生物数学
1.NBT.2a 10 可以看作是十个一的组合,称为“十”。 1.NBT.2b 从 11 到 19 的数字由一个十和一个、二、三、四、五、六、七、八或九个一组成。 1.OA.6 在 20 以内进行加减运算,展示在 10 以内进行加减运算的流畅性。使用以下策略:继续计数;凑成十(例如,8 + 6 = 8 + 2 + 4 = 10 + 4 = 14);分解一个数字得到十(例如,13 – 4 = 13 – 3 – 1 = 10 – 1 = 9);使用加法和减法之间的关系(例如,知道 8 + 4 = 12,就知道 12 – 8 = 4);并创建等效但更简单或已知的总和(例如,通过创建已知等效的 6 + 6 + 1 = 12 + 1 = 13 来添加 6 + 7)。