任务,包括人工智能和量子信息科学。委员会赞扬 ASCR 对科学应用机器学习工具的追求,以及它对未来可部署量子计算机和人工智能算法开发的支持。委员会赞扬能源部及其百亿亿次计算计划帮助美国保持超级计算技术的领先地位。委员会鼓励能源部在此成功模式的基础上,制定一项新的多年期计划,利用公私伙伴关系,共同设计和共同开发前沿的后百亿亿次先进计算技术,这对于美国继续在科学发现、国家安全和经济福祉方面保持世界领先地位至关重要。
数据中心和高性能计算系统的流量需求在过去十年中成倍增长,这是由于机器学习,大数据分析,尤其是深度学习(DL)基于人工智能(AI)应用程序中数据密集型工作量的泛滥。最近在自然语言处理和内容产生中表明,大型语言模型的巨大潜力进一步加速了技术的进步,而采用了越来越大的更大的DL模型和数据集[1]。持续的趋势引发了巨大的努力,提高了计算硬件的能力,尤其是通过积极的并行性和专业化[2,3],远远超过了基本通信基础设施的进步[4]。因此,将大量数据移动和芯片之间的移动已成为计算性能和能源效率的瓶颈,将这种系统的连续缩放缩放到Exascale [5]。
美国在前沿科学领域以及将科学发现转化为技术创新方面具有重要意义。量子信息科学、人工智能、超百亿亿次计算、微电子、核聚变、先进材料与制造、生物工程和地球工程等越来越多的新兴和快速发展的技术正在迅速重塑全球科学格局,并成为知识和经济领导地位的争夺领域。放弃这些发展中技术的领导地位将不可避免地导致美国全球实力的下降。然而,加速这些科学领域的进步(并将发现转化为影响)需要整个美国科学生态系统的共同努力,能源部国家实验室将通过其独特的专业知识和基础设施提供独特的能力,如下所示。
HPC 生态系统不断发展,为探索和研究提供了无尽的途径。促成这些市场研究机会的项目包括快速引入和采用大型语言模型 (LLM) 和其他与 AI 相关的创新、在云端采用 HPC 资源的增加以及对可持续性和能源效率的重视和认识的提高,仅举几例。Hyperion Research 的分析师团队致力于在这些主题以及 HPC 市场的许多其他方面提供深思熟虑、富有洞察力和批判性的分析。这些维度包括但不限于市场数据、技术、创新、百亿亿次级部署和垂直应用用例。2023 年被证明是相当多事的一年,预计 2024 年也将同样重要。
ThinkSystem SD650-I V3 服务器托架和 DW612S 机箱采用直接水冷,可提供数据中心冷却效率和性能的终极表现。在 ThinkSystem SD650-I V3 上,四个英特尔数据中心 GPU Max 1550 GPU 使用英特尔 X Links 互连,为高性能计算、人工智能训练和推理工作负载提供显著的性能改进。英特尔 Max 系列 1550 GPU 支持联想 HPC 理念,帮助客户实现从百亿亿次到万亿次级™ 的规模。单个 ThinkSystem SD650-I V3 节点机架在仅 0.72 平方米(不到 8 平方英尺)的占地面积上提供高达 2.8 PetaFLOPS HPC 或 45 PetaFLOPS AI 峰值性能。
能源效率是减少数据中心设施能源消耗的关键工具。DOE 长期以来一直是开发改进冷却技术的领导者,包括数据中心。例如,ARPA-E 有一个正在进行的 COOLERCHIPS 计划,专注于将创新的数据中心冷却技术商业化。DOE 国家实验室已经建立了百亿亿次计算设施,其电源使用效率 (PUE) 为 1.03,展示了最先进的数据中心效率技术。1 DOE 还领导了 20 年能源效率扩展计划,目标是在 20 年内将数据中心计算所需的微电子的能源效率提高 1000 倍。DOE 正在继续开发计划,以支持数据中心所有者提高能源效率和
认识到在大规模分布计算中对弹性的需求日益增长的需求,ICL在2000年代初引入了容忍度的MPI(FT-MPI),集成了优雅处理过程失败并增强应用程序可靠性的机制。随着HPC体系结构变得更加复杂,ICL开发了Parsec(2012),这是一个基于任务的运行时框架,可以高效地执行分布式和异构体系结构。PARSEC优化资源利用率,动态适应现代计算平台,并已成为Exascale计算的基本工具。它的影响已得到广泛认可 - 在过去的三年中,它在三个戈登·贝尔奖决赛选手项目中发挥了关键作用,最终在2024年在SC24赢得了历史性的胜利。ICL继续完善和扩展Parsec的能力,确保以创新,高性能的解决方案满足未来分布式计算挑战。
4202 - 法律网络科学 26 4203 - 民主的计算视角 27 4204 - 机器学习:基础和新前沿 28 4205 - 构建游戏原型以探索游戏感觉设计以获得情感体验 29 4206 - 使用生成模型学习运动计划 30 4207 - 在高维神经科学数据中建模弱信号 31 4208 - 学术界的泄漏管道 32 4209 - 几何(交叉)图中的距离 33 4210 - 在机器学习的帮助下使用物理模拟接近百亿亿次级 34 4211 - 用于核酸纳米结构的 DNAforge 设计工具 35 4212 - 概率机器学习中的位置 36 4213 - 分布式和并行计算理论 37 4214 - 贝叶斯工作流程38 4215 - 利用人类反馈进行强化学习的 LLM 分布式训练 (RLHF) 39
现代科学和社会中大多数问题的极端复杂性对我们最好的理论和计算方法提出了非常巨大的挑战。作为一个例子,即使是最强大的超级计算机,也可以基于流动运动方程的直接模拟来预测行星尺度上天气的任务前面的Exascale操作(每秒10亿个流量点操作)。此外,这个和类似的问题通常受到影响解决方案的初始数据和其他参数引起的各种不确定性来源。因此,每个案例研究都需要几个实现,以积累足够的统计信息(集合模拟),从而进一步加强了对计算能力的追求。鉴于电子计算机面临着非常严格的能量限制,因此不断寻求替代模拟策略。在过去的十年中,巨大的效果已经专门用于量子计算机的开发,使用能够利用量子系统同时占据众多状态的硬件设备(量子纠缠)。直接优势是,量子系统原则上可以执行多种并行量子计算,而不是只能在二元状态下运行的经典计算机(位)。最近,没有一天没有