我们在新型神威超级计算机上开发了一个基于张量的高性能随机量子电路模拟器。主要创新包括:(1)近乎最优的切片方案和兼顾复杂度和计算密度的路径优化策略;(2)三级并行方案,可扩展到约 4200 万个核心;(3)融合排列和乘法设计,可提高各种张量收缩场景的计算效率;(4)混合精度方案,进一步提升性能。模拟器有效扩展了可模拟 RQC 的范围,包括 10 × 10(量子比特)×(1+40+1)(深度)电路,并能保持 1.2 Eflops(单精度)或 4.4 Eflops(混合精度)的性能,成为经典量子电路模拟的新里程碑;并将Google Sycamore的模拟采样时间从之前宣称的10000年缩短至304秒。
随着全球数字化、智能化转型加速,算力需求快速上升。i 根据国际数据公司数据,全球15个主要经济体数字经济占GDP比重平均从2017年的44.1%提升至2022年的50.2%,预计到2026年将达到54.0%,规模超过40万亿美元。1,ii 中国、美国、欧盟等主要经济地区纷纷出台战略政策,加速发展算力、数字化、人工智能。据中国信息通信研究院估计,iii 2023年全球计算设备的算力能力将达到1,369 EFLOPS,iv 连续两年年均增长率接近50%,预计未来五年增长率将超过50%。2
摘要 大规模预训练人工智能模型在一系列重要应用中展现出了极高的准确率。为了实现更高的准确率,预训练人工智能模型的规模每年都在大幅增长,而训练此类模型需要海量的计算和内存能力,这加速了人工智能与高性能计算的融合。然而,在高性能计算系统上部署人工智能应用仍存在不足,需要基于特定硬件特性进行应用和系统协同设计。为此,本文提出了八卦炉1号,这是第一个在百亿亿次超级计算机——新一代神威超级计算机上训练脑规模模型的工作。通过结合针对硬件的节点内优化和混合并行策略,八卦炉在前所未有的大型模型上实现了良好的性能和可扩展性。评估显示,八卦炉可以使用混合精度训练14.5万亿参数模型,性能超过1 EFLOPS,并且有能力训练174万亿参数模型,其数量堪比人脑的突触数量。
摘要 大规模预训练人工智能模型在一系列重要应用中展现出了极高的准确率。为了实现更高的准确率,预训练人工智能模型的规模每年都在大幅增长,而训练此类模型需要海量的计算和内存能力,这加速了人工智能与高性能计算的融合。然而,在高性能计算系统上部署人工智能应用仍存在不足,需要基于特定硬件特性进行应用和系统协同设计。为此,本文提出了八卦炉1号,这是第一个在百亿亿次超级计算机——新一代神威超级计算机上训练脑规模模型的工作。通过结合针对硬件的节点内优化和混合并行策略,八卦炉在前所未有的大型模型上实现了良好的性能和可扩展性。评估显示,八卦炉可以使用混合精度训练14.5万亿参数模型,性能超过1 EFLOPS,并且有能力训练174万亿参数模型,其数量堪比人脑的突触数量。
数字化赋能,担当担当。公司持续夯实数字化基础,建成全球最大规模4G/5G共建共享网络,在用5G共享基站超121万个,4G中频共享基站超200万个。落实国家“东西算力转移”项目,持续优化算力布局,加快新型算力基础设施建设,智能算力规模达11EFLOPS,推动云网融合数字化信息基础设施智能化演进升级。打造优质数字化产品和服务,发布“灵泽数据元素2.0平台”,打造集云、智能计算、超算于一体的智能计算加速平台“云效”,推出一站式智能计算服务平台“慧聚”。打造“1+N+M”星辰大机型系列产品体系,在政务、教育、交通等垂直领域推出12大垂直机型,加速人工智能赋能新型工业化。推动5G产品服务全新升级,数字家庭、智慧社区等场景应用融合推广。积极构建数字政府全栈能力体系,打造社会治理平台,助力提升政务服务水平和智慧治理水平。强化“客户说了算”机制和流程,强化智慧服务能力,客户感知和服务美誉度持续提升。打造卓越品牌,坚持品牌引领作用,提升服务能力。