加速器本身提供超过 6 TFLOPS 的 16 位浮点吞吐量,每个芯片可扩展到大约 200 TFLOPS。脉动阵列中的 1024 个处理器块组成矩阵阵列,256 个 fp16/32 块组成用于计算激活的加速器,并包含 RELU、tanH 和 log 的内置函数。该平台还提供企业级可用性和安全性,正如人们对 Z 的期望一样,具有虚拟化、错误检查/恢复和内存保护机制。虽然 6 TFLOPS 听起来并不令人印象深刻,但请记住,此加速器针对事务处理进行了优化。与语音或图像处理不同,大多数数据都是浮点数,并且高度结构化。因此,我们相信这款加速器将提供足够的性能,并且无疑比
随着量子硬件的快速发展,量子电路的高效模拟已变得不可或缺。主要的模拟方法基于状态向量和张量网络。随着目前量子器件中量子比特和量子门的数量不断增加,传统的基于状态向量的量子电路模拟方法由于希尔伯特空间的庞大和广泛的纠缠而显得力不从心。因此,野蛮的张量网络模拟算法成为此类场景下的唯一可行解决方案。张量网络模拟算法面临的两个主要挑战是最优收缩路径寻找和在现代计算设备上的高效执行,而后者决定了实际的效率。在本研究中,我们研究了此类张量网络模拟在现代 GPU 上的优化,并从计算效率和准确性两个方面提出了通用的优化策略。首先,我们提出将关键的爱因斯坦求和运算转化为 GEMM 运算,利用张量网络模拟的具体特性来放大 GPU 的效率。其次,通过分析量子电路的数据特性,我们采用扩展精度保证模拟结果的准确性,并采用混合精度充分发挥GPU的潜力,使模拟速度更快、精度更高。数值实验表明,在Sycamore的18周期情况下,我们的方法可以将随机量子电路样本的验证时间缩短3.96倍,在一台A100上持续性能超过21 TFLOPS。该方法可以轻松扩展到20周期的情况,保持相同的性能,与最先进的基于CPU的结果相比加速12.5倍,与文献中报道的最先进的基于GPU的结果相比加速4.48-6.78倍。此外,本文提出的策略对