快速行进方法通常用于扩展各个字段中的前面模拟,例如流体动力学,计算机图形和微电子,以恢复级别集合函数的签名距离字段属性,也称为重新启动。为了提高重新距离步骤的性能,已经开发了快速行进方法的并行算法以及对层次网格的支持;后者在局部支持模拟域的更高分辨率,同时限制了对整体计算需求的影响。在这项工作中,先前开发的多网性快速行进方法通过所谓的基于块的分解步骤扩展,以改善层次结构网格的串行和并行性能。OpenMP任务用于基于每个网格的基础粗粒平行化。开发的方法提供了改进的负载平衡,因为该算法采用了高网格分配学位,从而使网格分区与各种网格尺寸之间的平衡。对具有不同复杂性的代表性几何形状进行了各种基准和参数研究。在24核Intel Skylake Computing平台上的各种测试用例中,串行性能提高了21%,而平行速度为7.4至19.1,有效地使以前方法的并行效率增加了一倍。©2021作者。由Elsevier B.V.这是CC下的开放访问文章(http://creativecommons.org/licenses/4.0/)。
摘要 — 近年来,量子计算取得了重大发展,并在许多应用领域确立了其霸主地位。虽然量子硬件可以通过云环境供公众使用,但仍需要一个强大而高效的量子电路模拟器来研究约束条件并促进量子计算发展,例如量子算法开发和量子设备架构探索。在本文中,我们观察到大多数公开可用的量子电路模拟器(例如 IBM 的 QISKit、Microsoft 的 QDK 和 Google 的 Qsim-Cirq)在量子比特数量增加时模拟速度慢且可扩展性差。为此,我们系统地研究了量子电路模拟(QCS)的缺陷,并提出了 Q-GPU,这是一个利用具有全面优化的 GPU 来实现高效且可扩展的 QCS 的框架。具体而言,Q-GPU 具有 i)主动状态幅度转移、ii)零状态幅度修剪、iii)延迟量子比特参与和 iv)无损非零状态幅度压缩。在九个代表性量子电路上的实验结果表明,Q-GPU 显著缩短了基于 GPU 的 QCS 的执行时间,缩短了 71.89%(加速 3.55 倍)。Q-GPU 还分别比最先进的 OpenMP CPU 实现、Google Qsim-Cirq 模拟器和 Microsoft QDK 模拟器快 1.49 倍、2.02 倍和 10.82 倍。
多块结构化网格的分区会影响数值模拟的性能和可扩展性。最佳分区器应同时实现负载平衡和最小化通信时间。最先进的域分解算法在平衡处理器之间的负载方面做得很好。但是,即使工作得到很好的平衡,通信成本也可能不平衡。影响通信成本的两个主要因素是边切割和通信量。当前的分区器主要侧重于减少总通信量,并依赖于简单的技术,例如在最长边处切割,而这种技术不会捕获几何中的连通性。它们也没有考虑网络延迟和带宽对分区的影响,导致所有平台上的分区相同。此外,它们的性能测试大多采用平面 MPI 模型,其中分区对通信的影响被同一节点上内核之间的快速共享内存访问所隐藏。在本文中,我们提出了用于多块结构化网格的新分区算法,以解决当前分区器的上述限制。新算法包括一个成本函数,它不仅考虑了通信量和边切,还考虑了网络的延迟和带宽。我们尽量减少所有处理器之间的总体成本,以创建最佳分区。为了证明所提算法的效率