我们研究并行性如何加速量子模拟。提出了一种并行量子算法来模拟一大类具有良好稀疏结构的汉密尔顿量的动力学,这些汉密尔顿量称为均匀结构汉密尔顿量,其中包括局部汉密尔顿量和泡利和等各种具有实际意义的汉密尔顿量。给定对目标稀疏汉密尔顿量的 oracle 访问,在查询和门复杂度方面,以量子电路深度衡量的并行量子模拟算法的运行时间对模拟精度 ϵ 具有双(多)对数依赖性 polylog log(1 /ϵ )。这比以前没有并行性的最优稀疏汉密尔顿模拟算法的依赖性 polylog(1 /ϵ ) 有了指数级的改进。为了获得这个结果,我们基于 Childs 的量子行走引入了一种新的并行量子行走概念。目标演化幺正用截断泰勒级数近似,该级数是通过并行组合这些量子行走获得的。建立了一个下限Ω(log log(1 /ϵ )),表明本文实现的门深度对ϵ 的依赖性不能得到显著改善。我们的算法被用来模拟三个物理模型:海森堡模型、Sachdev-Ye-Kitaev 模型和二次量子化的量子化学模型。通过明确计算实现预言机的门复杂度,我们证明了在所有这些模型上,我们的算法的总门深度在并行设置下都具有 polylog log(1 /ϵ ) 依赖性。
量子计算机可以使用最强大的古典计算机解决难以纠缠的问题。但是,Qubits是善变的,容易出错。有必要在执行量子电路中积极纠正错误。量子误差校正(QEC)代码是为了启用易于故障的量子计算的。使用QEC,将一个逻辑电路转换为编码电路。大多数关于量子电路汇编的研究都集中在具有10-100吨且不容忍断层的NISQ设备上。在本文中,我们专注于易于故障量子硬件的汇编。特别是,我们专注于优化基于表面代码QEC的通信并行性。表面代码电路的执行涉及对大型纠缠物理量子晶格的非平凡的几何操纵。表面代码中的两个Qubit Gate在时空中以虚拟“管道”的形式实现,称为编织路径。应仔细路由编织路径以避免交通拥堵。Qubits之间的通信被认为是主要的瓶颈,因为它涉及调度和寻找量子位之间的同时路径。我们提供了有效安排编织路径的框架。我们发现,对于具有局部并行性模式的量子程序,我们的框架是一个最佳解决方案,而以前的基于贪婪的 - 基于贪婪的解决方案则不能。此外,我们建议扩展到局部并行分析框架,以解决通信框架。我们的框架在解决了通信瓶颈后取得了数量级的改善。
摘要。本科生或新手程序员经常在编程课程中受到高级和抽象概念的挑战。与构建顺序程序相比,并行和并发编程需要不同的、更复杂的控制流思维模型。现在,多核处理器已成为计算机和移动设备的标准,开发软件以利用这种额外的计算能力的责任现在落在了现代软件开发人员身上。关键词:性能、编程、线程、顺序程序、计算机体系结构。简介本文的目的是通过不仅提供定义和解释,还提供来自现实生活的例子,帮助读者理解什么是并行性和并发性,因为这样会更容易理解。有很多解释,但只有少数能让你对它们有一个很好的认识,其余的都让你感到困惑,然后你放弃理解这两个术语。你甚至不知道你不仅在编程时看到并发和并行性,而且在任何地方、任何时候都看到它。现实生活中的实现想象一下,一个人在图书馆工作,一堆新书到了。他的任务是按作者选择合适的书,然后将它们放到书架上。他完成这项任务的方式是遵循正确的步骤。他会从所有书中挑选出由同一作者写的书。将它们带到相应的位置后,他会将它们排列在书架上。为了使这个过程更有效率,他可以实施并行技术,使用两名工人并让他们同时工作。这样,他将减少两倍的时间。当然,如果他想使这项工作更有效率,他可以使用更多的工人。关于并行性,需要了解的一件重要事情是,有时您无法获得预期的性能提升,因为您可能会遇到瓶颈,这种情况发生在资源(书籍)繁忙且第二名工人无法选择所需书籍时,这就是为什么您可能会浪费与使用一名工人时相同的时间。现在,如果您想更好地优化,可以使用并发方法。因此,在进入这个主题之前,先定义什么是并发,因为很容易将并发与并行混淆,我们必须从一开始就尝试明确两者的区别: - 并行是指同时做很多事情。 - 并发是指同时处理很多事情。 并行 并行意味着在多个硬件(核心、机器等)上执行多个任务,这就是为什么这些任务并行运行并且尽可能快地执行。 并行计算机是一种在协作中使用同时处理元素的计算机或系统
• 科学计算和实验会产生数以 TB 或 PB 计的数据,必须高效存储。• 该数据存储在 ASCR 计算设施的磁盘驱动器和存档系统集合中。• 与 ASCR 的计算能力一样,高性能数据管理需要并行执行许多操作。• ASCR 投资于创新方法来存储、压缩、搜索和分析数据,以最大限度地提高并行性和性能。• ASCR 还投资于流数据和联合学习的进步,使地理位置分散的数据能够为科学建模做出贡献,而无需将所有数据存储在一个地方。
现实世界优化问题的日益复杂凸显了这项研究的重要性,因为经典算法无法在这些情况下提供有效的答案。由于非线性优化问题在许多领域普遍存在,因此需要创新方法来快速且可扩展地解决这些问题。由于量子计算具有叠加原理和内在并行性,因此它在加速优化过程和克服经典限制方面具有巨大的潜力。然而,将量子算法 (I-QA) 集成到现实世界的应用中并不总是一帆风顺的。在保持量子相干性、纠正错误和在硬件限制内工作方面存在重大挑战。为了能够通过量子并行性同时探索解空间,本研究提出了混合量子梯度-经典方法 (HQG-CA),该方法利用参数化量子电路来表示可能的解。此外,通过将量子梯度信息应用于量子态空间中的直接优化来提高收敛速度。金融投资组合的优化、机器学习模型参数的调整以及物流路线的优化是 HQG-CA 在许多行业中的一些应用。本摘要探讨了这些应用,突出了 HQG-CA 在解决现实世界中的优化问题方面的革命性潜力。通过全面的模拟实验评估了 HQG-CA 的有效性。基于广泛的测试和与传统替代方案的比较,讨论了算法加速、解决方案准确性和可扩展性等性能指标。本研究对 HQG-CA 解决非线性优化问题的潜力进行了全面评估。
随着 GPU 逐渐脱离其传统领域(游戏、多媒体和消费市场),其可靠性引起了人们的关注和质疑 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由 GPU 拥有的大量可用资源和采用的先进半导体技术造成的。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。GPU 的并行性在性能方面提供了无可置疑的优势,因此,它是该设备最脆弱的特性之一。 GPU 制造商已提供了有效的可靠性对策,例如改进存储单元设计[39]、添加纠错码[15]、用于故障测试的硬件结构[25],以及提出软件校验和[21]或多线程冗余[49]。现有的大多数 GPU 可靠性研究都针对瞬态故障及其作为软件错误的影响,而永久性故障基本上未被探究。这是有道理的,因为在大多数应用中,GPU 的预期寿命不超过两年。然而,用于汽车、航空航天和军事应用的 GPU 预计可以使用很多年。此外,HPC 级 GPU 的典型工作条件,例如过载、高温、高频率运行和技术节点缩小,都会加速老化[23],甚至会使设备暴露于地面辐射引起的永久性故障[20]。延长的使用时间和过早的老化突然引发了人们对 GPU 及其应用程序在出现永久性故障时如何表现的疑问。至关重要的是,只有少数初步研究针对 GPU 中的永久性故障 [ 17 , 26 , 46 ],而没有一项研究关注并行性管理单元。在本文中,我们旨在通过提出一种方法来针对一个完全未探索的方面显著提高对 GPU 可靠性的理解:负责并行性管理的 GPU 电路中永久性故障的影响。我们决定专注于调度器、提取和解码器单元,因为 (a) 它们是主要针对并行操作进行优化的特殊 GPU 资源,(b) 影响它们的永久性故障将对代码执行产生不小的影响,(c) 它们无法轻易通过纠错码或硬件冗余进行保护,(d) 它们很可能
MME 简介 英特尔® Gaudi® 3 AI 加速器矩阵乘法引擎 (MME) 代表英特尔® Gaudi® 加速器系列 MME 引擎的第 5 代。这些 MME 是专用的高性能计算核心,专为矩阵运算而设计,矩阵运算是深度学习算法的基础计算类型。英特尔® Gaudi® 3 AI 加速器包含八个这样的 MME,每个 MME 都能够执行令人印象深刻的 64K 并行运算。这种大规模并行性可实现高度的计算效率,使这些 MME 特别擅长处理深度学习工作负载中普遍存在的复杂矩阵运算。
摘要 — 将高级量子程序编译到大小受限(即量子比特数量有限)和时间受限(即量子操作数量有限)的机器中是一项挑战。在本文中,我们介绍了 SQUARE(战略量子辅助重用),这是一种编译基础架构,用于解决模块化量子程序中临时量子比特(称为辅助)的分配和回收问题。SQUARE 的核心是战略性地执行非计算以创造量子比特重用的机会。当前的嘈杂中型量子 (NISQ) 计算机和前瞻性的容错 (FT) 量子计算机具有根本不同的约束,例如数据局部性、指令并行性和通信开销。我们基于启发式的辅助重用算法平衡了这些考虑因素,并将计算纳入资源受限的 NISQ 或 FT 量子机,并在必要时限制并行性。为了精确捕获程序的工作量,我们提出了一个改进的指标,即“活动量子体积”,并使用该指标来评估我们算法的有效性。我们的结果表明,SQUARE 将 NISQ 应用程序的平均成功率提高了 1.47 倍。令人惊讶的是,用于未计算的额外门创建了具有更好局部性的辅助门,并导致交换门大大减少,总体上门噪声也更低。SQUARE 还实现了 FT 机器的活动量子体积平均减少 1.5 倍(最高 9.6 倍)。索引术语 — 量子计算、编译器优化、可逆逻辑综合
传统计算机技术正面临着根本性的限制,这些限制与硬件架构(冯·诺依曼瓶颈)、晶体管的集成密度(摩尔定律的终结)以及估计功耗的大幅增加有关。这些限制极大地刺激了对新颖和非传统计算概念的研究。1 神经形态工程领域旨在通过设计新型计算硬件来解决这些挑战,这些计算硬件从生物学原理中汲取灵感,例如信号阈值、突触可塑性、并行性和层次结构或内存计算。2 在过去十年中,忆阻器件作为神经形态硬件设计中的基本构建单元发挥了关键作用,重大努力集中在大规模集成