为开发能够加速模拟和计算应用的新型先进内存技术,支持国家核储备管理任务,桑迪亚国家实验室与洛斯阿拉莫斯国家实验室和劳伦斯利弗莫尔国家实验室合作,宣布将一项研发合同授予英特尔公司全资子公司英特尔联邦有限责任公司。该项目由美国国家核安全局的先进模拟和计算项目赞助,这三个国家实验室将与英特尔联邦合作开展该项目。项目主管 Thuc Hoang 说:“ASC 的先进内存技术研究项目正在开发一些技术,这些技术将影响未来用于复杂建模和模拟工作负载的计算机系统架构。我们选定的几种技术有可能将应用性能提高 40 倍以上,超过我们即将推出的 NNSA 百亿亿次级系统的性能。”
异质多尺度方法(HMM)能够同时使用Exascale超级计算机的出现,能够同时使用多个尺度模拟多个尺度。但是,幼稚的实现显示大量裁员,并且非常昂贵。宏观模型通常需要计算大量非常相似的显微镜模拟。在层次方法中,这几乎不是一个问题,因为现象学组成模型很便宜。但是,当微观模拟需要例如高维分子动力学(MD)或有限元(Fe)模拟时,必须避免冗余。我们提出了一种适用于HMM工作流的聚类算法,该算法会自动分类并消除冗余显微镜模拟。该算法具有条纹的组合,以呈现微观模拟的参数配置和基于其相似性的图网络表示的低维表示。该算法可以将相似的参数配置聚类为单个参数,以减少所需的显微镜模拟数量。我们描述了算法在HMM应用耦合Fe和MD的背景下的实现,以预测聚合物 - 透明烯纳米复合材料的化学机械行为。该算法提供了计算效果的三倍降低,准确性损失有限。
摘要 大规模预训练人工智能模型在一系列重要应用中展现出了极高的准确率。为了实现更高的准确率,预训练人工智能模型的规模每年都在大幅增长,而训练此类模型需要海量的计算和内存能力,这加速了人工智能与高性能计算的融合。然而,在高性能计算系统上部署人工智能应用仍存在不足,需要基于特定硬件特性进行应用和系统协同设计。为此,本文提出了八卦炉1号,这是第一个在百亿亿次超级计算机——新一代神威超级计算机上训练脑规模模型的工作。通过结合针对硬件的节点内优化和混合并行策略,八卦炉在前所未有的大型模型上实现了良好的性能和可扩展性。评估显示,八卦炉可以使用混合精度训练14.5万亿参数模型,性能超过1 EFLOPS,并且有能力训练174万亿参数模型,其数量堪比人脑的突触数量。
摘要 大规模预训练人工智能模型在一系列重要应用中展现出了极高的准确率。为了实现更高的准确率,预训练人工智能模型的规模每年都在大幅增长,而训练此类模型需要海量的计算和内存能力,这加速了人工智能与高性能计算的融合。然而,在高性能计算系统上部署人工智能应用仍存在不足,需要基于特定硬件特性进行应用和系统协同设计。为此,本文提出了八卦炉1号,这是第一个在百亿亿次超级计算机——新一代神威超级计算机上训练脑规模模型的工作。通过结合针对硬件的节点内优化和混合并行策略,八卦炉在前所未有的大型模型上实现了良好的性能和可扩展性。评估显示,八卦炉可以使用混合精度训练14.5万亿参数模型,性能超过1 EFLOPS,并且有能力训练174万亿参数模型,其数量堪比人脑的突触数量。
摩尔定律是一种技术经济模型,它使信息技术行业能够在固定成本、功率和面积的情况下,大约每两年将数字电子产品的性能和功能翻一番。硅光刻技术的进步使电子产品的小型化呈指数级增长,但随着晶体管达到原子级,制造成本不断上升,50 年来支撑摩尔定律的经典技术驱动因素正在失效,预计到 2025 年将趋于平缓。本文根据我们对技术路线图的最新理解,对后百亿亿次系统及其未来挑战提供了最新的看法。它还讨论了历史改进的逐渐减少,以及它如何影响继续扩展第一台百亿亿次级机器的后继者的可用选项。最后,本文介绍了在没有历史技术驱动因素的情况下继续提高计算性能的许多不同机会和策略。本文是讨论会议问题“高性能计算科学的数值算法”的一部分。
摘要。在Exascale计算时代,具有前所未有的计算能力的机器可用。使这些大规模平行的机器有效地使用了数百万个核心,提出了一个新的挑战。需要多级和多维并行性来满足这种挑战。粗粒分量并发性提供了一个差异的并行性维度,该维度通常使用了通常使用的并行化方法,例如域分解和循环级别的共享内存方法。虽然这些主教化方法是数据并行技术,并且它们分解了数据空间,但组件并发是一种函数并行技术,并且分解了算法MIC空间。并行性的额外维度使我们能够将可扩展性扩展到由已建立的并行化技术设置的限制之外。,当通过添加组件(例如生物地球化学或冰盖模型)增加模型复杂性时,它还提供了一种方法来提高性能(通过使用更多的计算功率)。此外,货币允许每个组件在不同的硬件上运行,从而利用异质硬件配置的使用。在这项工作中,我们研究了组件并发的特征,并在一般文本中分析其行为。分析表明,组件并发构成“并行工作负载”,从而在某些条件下提高了可扩展性。这些通用考虑是
Co‐PI(s): Matt Churchfield 1 , Marc Day 1 , Georgios Deskos 1 , Caroline Draxl 1 , Nicholas Hamilton 1 , Marc Henry de Frahan 1 , Jon Rood 1 , Ashesh Sharma 1 , Ganesh Vijayakumar 1 , Ann Almgren 2 , Aaron Lattanzi 2 , Jean Sexton 2 , Stuart Slattery 3 , Melissa Allan‐Dumas 3 , Matt Norman 3 , Mark Taylor 4 , Andrew Bradley 4 , Lawrence Cheung 4 , Philip Sakievich 4 , Maciej Waruszewski 4 , Sonya Smith 5 , Lian Shen 6 , François Blanchette 7 1: National Renewable Energy Laboratory, Golden, CO 80401 2: Lawrence Berkeley National Laboratory, Berkeley, CA 94720 3:橡树岭国家实验室,橡树岭,田纳西州37830 4:桑迪亚国家实验室,阿尔伯克基,新墨西哥州87185 5:霍华德大学,华盛顿特区,华盛顿特区,20059年6月6日:明尼苏达州明尼苏达州,明尼苏达大学,明尼苏达大学55455 55455 7:加利福尼亚大学,加利福尼亚大学,CA 95343的一部分,一部分,一部分,一部分劳动,一部分征集了一部分,一部分劳动,一部分劳动,一部分劳动,一部分劳动,一部分是一部分,一部分是一部分劳动。 (DOE'S)浮动海上风力射击旨在降低到2035年浮动海上风能的水平成本(LCOE)。Flowmas Energy Earthshot Research Center(EERC)将提供必要的基础研究,以实现这一积极的时间表的突破。对气象海洋环境中浮动海上风力涡轮机的条件,负载和动力学的了解和模型非常缺乏,尤其是在极端情况下。一个人无法完全优化知识渊博的系统,并且不存在足够的模型。Flowmas从数学,计算和大气 - 科学背景中融合了研究人员,以更好地模型,并更好地理解从气候尺度到风力涡轮机浮动平台和实现风能所需的叶片的动态。Building on DOE investments in high‐fidelity models for climate and land‐based wind energy that can exploit exascale‐class computing, FLOWMAS researchers will create a suite of high‐fidelity codes for floating offshore wind energy that incorporates the microscale (i.e., wind turbines, floating platforms, and mooring systems), mesoscale (i.e., regional weather dynamics), and global/climate scales.研究人员将使用高更多的模拟和正在进行的DOE支持的现场活动来创建数据驱动的替代模型,这些模型在计算上效率高,并且可以探索许多系统条件,并且在长时间的时间内无法使用计算昂贵的高档高档模型无法访问。最后,开发的模型将利用Exascale计算的功率来创建对浮动海上风能系统的新理解,包括气候变化将如何影响海上风能资源,浮动风电场和涡轮机唤醒动态的物理,以及在操作和极端事件中浮动风力涡轮机的负载和动态。
Fugaku 是世界上第一台百亿亿亿次级超级计算机,主要由理化学研究所计算科学中心 (R-CCS) 和富士通有限公司设计和建造,但日本 HPC 社区的所有主要利益相关者都参与其中。“Fugaku”这个名字是富士山的另一个名字,选择这个名字是为了表明这台机器不仅追求极高的性能,而且同时追求广泛的用户群和适用性。Fugaku 的核心是新的富士通 A64FX Arm 处理器,它 100% 符合 Aarch64 规范,但体现了首次在主要服务器通用 CPU 中实现的技术,例如 7nm 工艺技术、封装集成 HBM2 和 TB 级 SVE 流媒体功能、包括网络交换机在内的片上嵌入式 TOFU-D 高性能网络,以及采用所谓的“分解架构”,允许分离和任意组合 CPU 核心、内存和网络功能。 Fugaku 在单插槽节点配置中使用 158,974 个 A64FX CPU,使其成为有史以来最大、速度最快的超级计算机,其在主要 HPC 基准测试中取得了突破性成就,并在 COVID-19 应用中产生了社会成果。
世界上首要的高性能计算设施之一劳伦斯·利弗莫尔(Lawrence Livermore)是Livermore Computing(LC)的所在地,Livermore Computing是世界上最重要的高性能计算设施之一。LC拥有188多个PETAFLOPS的计算能力和许多Top500系统,包括125-Petaflop Sierra。继续延续世界一流的LLNL超级计算机的长血统,塞拉代表了通往Exascale Computing道路的倒数第二步,预计将在2023年通过称为El Capitan的LLNL系统实现。这些旗舰系统具有GPU的支持,并以3D的形式在从未见过的各种关键任务需求的情况下进行了多物理模拟。在2020年,LLNL和小脑系统将世界上最大的计算机芯片集成到Lassen系统中,并使用尖端的AI技术升级顶级超级计算机。这种组合创造了一种根本新型的计算解决方案,使研究人员能够研究新颖的预测建模方法。这些平台得到了我们的LEED认证,创新的基础设施,权力和冷却设施的支持;一个存储基础架构,包括三种文件系统和世界上最大的tfinity磁带档案;和顶级客户服务。我们的行业领先软件生态系统展示了我们对许多大型开源工作的领导,从折腾和ZFS到R&D 100屡获殊荣的SCR和SPACK。
世界上首要的高性能计算设施之一劳伦斯·利弗莫尔(Lawrence Livermore)是Livermore Computing(LC)的所在地,这是一家首要的高性能计算设施。LC拥有200多个PETAFLOP的计算能力和许多Top500系统,包括125-Petaflop Sierra系统。继续世界一流的LLNL超级计算机的血统,塞拉代表了Exascale Computing道路上的倒数第二步,预计将通过称为El Capitan的LLNL系统在2023年实现。这些旗舰系统具有GPU的支持,并以3D的形式在从未见过的各种任务需求的情况下进行了多物理模拟。在2020年,LLNL和小脑系统将世界上最大的计算机芯片集成到Lassen系统中,并使用尖端的AI技术升级顶级超级计算机。这种组合创造了一种根本新型的计算解决方案,使研究人员能够研究新颖的预测建模方法。这些平台得到了我们的LEED认证,创新的基础设施,权力和冷却设施的支持;一个存储基础架构,包括三种文件系统和世界上最大的tfinity磁带档案;和顶级客户服务。我们的行业领先的软件生态系统展示了我们对许多大型开源工作的领导,从与光泽和ZFS一起抛弃到R&D 100屡获殊荣的Flux,SCR和SPACK。