泰顿香山(2024)于8月22日起起源于玛丽安娜群岛,在日本附近缓慢行动,并于8月27日以极强的力量接近阿马米地区。然后,它向北转移了路线,并以极强的类别向九州南部转移,并在8月29日的08:00左右与强大的类别相比,在Kagoshima县Satsumasendai City附近登陆。由于从西部到东部的大气条件非常不稳定,因此某些地区受到与云层云相关的龙卷风的影响。在宫崎骏县,几个城镇在28和29号被龙卷风袭击。资料来源:日本气象局网站
AI 技术的发展对于实现日本科技政策中宣布的“Society 5.0”不可或缺。随着这种发展的进行,AI 学习所需的计算资源不断增加。通过 K 计算机和超级计算机 Fugaku(以下简称 Fugaku)的开发,富士通一直提供具有丰富计算资源的高性能计算 (HPC) 系统。现在,为了利用 HPC 系统丰富的计算资源进行 AI 学习,我们正在与 RIKEN 合作在 Fugaku 上开发 AI 基础设施。本文介绍了我们与 RIKEN 联合在 Fugaku 上测试和评估 AI 相关软件性能的当前状态以及我们未来在 HPC 和 AI 方面的工作。
1) 实现低流量高效液冷 为了提高性能,富岳的 CPU 数量是 K 计算机的四倍。此外,CPU 本身的性能也得到了提高,每个 CPU 产生的热量也更大。因此,每个机架的发热量约为 K 计算机的六倍,需要提高冷却性能。通常,通过增加冷却水的流量来改善冷却。然而,这需要更大直径的管道,并阻碍了高密度安装,这是最初的目标。因此,实现低流量高效液冷是一个问题。 2) 在有限的工作空间内进行现场维护 在富岳,CMU 的维护需要现场维护,即在系统本身继续运行时进行的维护工作。然而,CMU 有许多连接,例如用于高速信号、液冷管道和电源的连接,这些连接必须在安装期间插入和移除。
K计算机及其后继超级计算机“ Fugaku”是世界一流的超级计算机,它们是由88,192和158,976个相互联系的节点组成的大规模平行计算机。通过富士通开发的互连技术使这种100k节点的可伸缩性成为可能。技术的分区和虚拟圆环功能可以防止多个并行程序之间的通信干扰和支持每个并行程序中通信模式的优化,以确保稳定的通信性能,并允许分区即使在tain tain失败的节点上也可以使用以获得高可用性。本文介绍了K计算机和超级计算机Fugaku中使用的高维度的互连技术。