1) 实现低流量高效液冷 为了提高性能,富岳的 CPU 数量是 K 计算机的四倍。此外,CPU 本身的性能也得到了提高,每个 CPU 产生的热量也更大。因此,每个机架的发热量约为 K 计算机的六倍,需要提高冷却性能。通常,通过增加冷却水的流量来改善冷却。然而,这需要更大直径的管道,并阻碍了高密度安装,这是最初的目标。因此,实现低流量高效液冷是一个问题。 2) 在有限的工作空间内进行现场维护 在富岳,CMU 的维护需要现场维护,即在系统本身继续运行时进行的维护工作。然而,CMU 有许多连接,例如用于高速信号、液冷管道和电源的连接,这些连接必须在安装期间插入和移除。
AI 技术的发展对于实现日本科技政策中宣布的“Society 5.0”不可或缺。随着这种发展的进行,AI 学习所需的计算资源不断增加。通过 K 计算机和超级计算机 Fugaku(以下简称 Fugaku)的开发,富士通一直提供具有丰富计算资源的高性能计算 (HPC) 系统。现在,为了利用 HPC 系统丰富的计算资源进行 AI 学习,我们正在与 RIKEN 合作在 Fugaku 上开发 AI 基础设施。本文介绍了我们与 RIKEN 联合在 Fugaku 上测试和评估 AI 相关软件性能的当前状态以及我们未来在 HPC 和 AI 方面的工作。
K计算机及其后继超级计算机“ Fugaku”是世界一流的超级计算机,它们是由88,192和158,976个相互联系的节点组成的大规模平行计算机。通过富士通开发的互连技术使这种100k节点的可伸缩性成为可能。技术的分区和虚拟圆环功能可以防止多个并行程序之间的通信干扰和支持每个并行程序中通信模式的优化,以确保稳定的通信性能,并允许分区即使在tain tain失败的节点上也可以使用以获得高可用性。本文介绍了K计算机和超级计算机Fugaku中使用的高维度的互连技术。
泰顿香山(2024)于8月22日起起源于玛丽安娜群岛,在日本附近缓慢行动,并于8月27日以极强的力量接近阿马米地区。然后,它向北转移了路线,并以极强的类别向九州南部转移,并在8月29日的08:00左右与强大的类别相比,在Kagoshima县Satsumasendai City附近登陆。由于从西部到东部的大气条件非常不稳定,因此某些地区受到与云层云相关的龙卷风的影响。在宫崎骏县,几个城镇在28和29号被龙卷风袭击。资料来源:日本气象局网站
Fugaku 是世界上第一台百亿亿亿次级超级计算机,主要由理化学研究所计算科学中心 (R-CCS) 和富士通有限公司设计和建造,但日本 HPC 社区的所有主要利益相关者都参与其中。“Fugaku”这个名字是富士山的另一个名字,选择这个名字是为了表明这台机器不仅追求极高的性能,而且同时追求广泛的用户群和适用性。Fugaku 的核心是新的富士通 A64FX Arm 处理器,它 100% 符合 Aarch64 规范,但体现了首次在主要服务器通用 CPU 中实现的技术,例如 7nm 工艺技术、封装集成 HBM2 和 TB 级 SVE 流媒体功能、包括网络交换机在内的片上嵌入式 TOFU-D 高性能网络,以及采用所谓的“分解架构”,允许分离和任意组合 CPU 核心、内存和网络功能。 Fugaku 在单插槽节点配置中使用 158,974 个 A64FX CPU,使其成为有史以来最大、速度最快的超级计算机,其在主要 HPC 基准测试中取得了突破性成就,并在 COVID-19 应用中产生了社会成果。
图3:Fugaku(Riken -2020)和Frontier(Ornl -2021)是两个最近安装的Exascale超级计算机,这些超级计算机说明了这些系统上硬件多样性的增加,包括处理器,互连,存储和I/O。由于使用GPU(21兆瓦与30兆瓦),Frontier更加有效,但预计将来系统的功耗将继续增加。与处理器和系统体系结构的变化同时
现在,指数幂对于人类来说很难理解。所以我举一个小例子。这就是富岳。这是世界上最大的超级计算机。其中之一。它的建造成本约为 10 亿美元。它内部有大约 700 万个处理器核心 - 700 万台笔记本电脑。如果你想解决这个问题 - 它解决了很多问题,其中一些问题,它解决了分子结构的模拟。凭借富岳的所有功能,你几乎可以对我最喜欢的分子进行全面模拟。这也可能是你最喜欢的分子。这是咖啡因。好的,如果我们以咖啡因为例,它有大约 30 个原子。如果你在我的咖啡因分子中再添加一个原子。所以我们称之为咖啡因加。如果你现在想对该分子进行全面模拟,现在需要两台超级计算机,所以你只需添加一个原子就可以使问题的规模翻倍。
本研究得到了百亿亿次计算项目 (17-SC-20-SC) 的支持,该项目是美国能源部科学办公室和国家核安全局的联合项目,负责提供一个强大的百亿亿次生态系统,包括软件、应用程序和硬件技术,以支持美国百亿亿次计算的需求。这项工作得到了劳伦斯伯克利国家实验室实验室指导研究与开发计划的支持,美国能源部合同编号为 DE-AC02-05CH11231。本研究使用了橡树岭领导计算设施的资源,该设施是美国能源部科学办公室用户设施,由合同 DE-AC05-00OR22725 提供支持,国家能源研究科学计算中心 (NERSC) 是美国能源部科学办公室用户设施,位于劳伦斯伯克利国家实验室,根据合同编号 DE-AC02-05CH11231 运营,使用 NERSC 奖项 ASCR-ERCAP0022112。本工作利用了日本理化学研究所通过 HPCI 系统研究项目(项目编号:ra010013)提供的超级计算机 Fugaku 的计算资源
更多的量子位开始。显然,Willow在不到五分钟的时间内进行了标准的基准计算 - 这将使当今最快的超级计算机之一10 suptillion(1025)年。正如Google在其博客中所说的那样:“ Willow使我们更接近无法在传统计算机上复制的实用,商业相关的算法。”超级计算过去是政府和研究机构的独家领域,因为它需要大量的预算和专业知识,反映了Primus Partners的Devroop Dhar,联合创始人兼董事会成员。“但是,这种景观已通过半导体技术,基于云的高性能计算(HPC)和人工智能(AI)的突破来重塑。这些新兴趋势的目的是使更广泛的受众可以访问超级计算。” “ AI超级计算机和桌面超级计算机正迅速成为主流现实。对AI特定的工作负载的需求,例如大型语言模型,自动驾驶汽车和实时分析的需求正在以更快的速度推动这项创新。” Dhar补充说。“全球公司和政府正在投资于Openai的Azure基础设施,日本的Fugaku等人的AI超级计算机,以满足这些计算需求。同时,硬件的进步使得能够超级计算级别的性能,使台式超级计算机对研究人员,开发人员和小型企业可行。”随着这些趋势的成熟,传统超级计算机和消费者级别系统之间的区别将模糊,这将使超级计算能力成为行业甚至个人计算的组成部分。但是等等!本质上,民主化,微不足道,商品化和消费的趋势本身不是与超级计算的违反直觉吗?
处理过时的软件已成为包括开源行业在内的各个行业的紧迫问题。本期为软件工程研究人员提供了机会,有机会适应传统的程序分析技术,以应对重构和现代化挑战。生成AI的进步已经为代码生成,翻译和错误修复以及其他任务开辟了新的途径。公司渴望探索可扩展的解决方案,以进行自动测试,重构和代码生成。本教程旨在提供旧软件现代化的概述,并在AI辅助软件和生成AI的兴起中强调了其意义。它将讨论由整体遗产代码和系统引起的行业挑战,引入建筑范式以现代化的老化软件,并突出需要注意的研究和工程问题。Daniel Thul等人,Xue Han等人,Daiki Kimura等人,Oytun Ulutan等人和Shivali Agarwal等人的研究论文。展示了解决旧软件现代化的重要性。这项工作有可能推动软件工程的创新,使IBM这样的公司能够开发最先进的解决方案。IBM研究在过去一年中在AI,量子计算,半导体和基本研究方面取得了长足的进步。该组织在全球12位实验室中的3,000名研究人员推动了科学领域的界限,并设想了以前似乎不可能的计算和扩展思想中的新可能性。我们的开发路线图将使我们走向这一未来。在过去的一年中,IBM研究在革新企业内的AI能力方面发挥了关键作用。就像AI在短时间内在我们的日常生活中深深地根深蒂固一样,世界上大多数有价值的业务数据仍然锁定在无法访问的格式中,例如PDF和电子表格。在2024年,IBM Research领导了该公司主要AI发行的指控,该公司旨在满足拥有数百万最终用户的企业。亮点之一是在五月的Think上推出了TruxStlab,这是一个开源项目,通过启用新知识和技能的协作添加来简化微调LLM。IBM Research和Red Hat之间的这种合作导致了Red Hat Enterprise Linux AI的功能强大的工具。TenchERTLAB脱颖而出,因为其能够允许全球社区创建和合并更改LLM的能力,而无需从头开始重新培训整个模型。此功能使全球人们更容易找到使用LLMS解决复杂问题的创新方法。此外,IBM Research还使用TerchandLab改善了其开源花岗岩模型,该模型随后于10月发布。在IBM Research的数据和模型工厂中设计和培训了新的花岗岩8B和2B模型。这些企业级模型的执行方式类似于较大的基础模型,但对于诸如抹布,分类,摘要,实体提取和工具使用的企业至关重要的任务成本的一小部分。在12月,IBM发布了其花岗岩3.1型号,每种型号的上下文长度为128K。经过超过12万亿代币的高质量数据培训,这些模型对其数据源具有完全透明的开源。花岗岩3.1 8b指示模型显着提高了其前身的性能改进,并在其同行中占据了拥抱面孔OpenLLM排行榜基准的平均得分之一。此外,IBM发布了一个新的嵌入模型系列,这些模型提供了12种语言的多语言支持,类似于它们的生成性。作为较早的Granite 3.0发射的一部分,Granite Guardian也是开源的。这使开发人员可以通过检查用户提示和LLM的响应来实施安全护栏,以了解社交偏见,仇恨言论,毒性,亵渎,暴力等风险。我们继续使用AI模型来推动界限,尤其是与抹布技术配对时。这种组合使我们能够评估背景相关性,回答相关性和扎根。我们的最新花岗岩3.1型号是8B强大的巨头,可提供无与伦比的风险和损害检测功能。我们还升级了我们的花岗岩时间序列模型,该模型以十倍的利润优于更大的模型。这些进步对于试图根据历史数据准确预测未来事件的企业尤为重要。与传统的LLM不同,我们的花岗岩TTM(TinyTimemixers)系列提供紧凑而高性能的时间序列型号,现在可以在Beta版本的Watsonx.ai的时间表预测API和SDK的Beta版本中提供。这个新的8B代码模型还具有对代理功能的支持。我们相信,我们的开源社区在这些模型中看到了价值,迄今为止,拥抱面孔的下载量超过500万。我们的下一代代码助理,由花岗岩代码模型提供支持,为C,C ++,GO,Java和Python等语言提供通用编码帮助。除了我们的内部软件开发管道改进外,在某些情况下增强了90%的增长,Granite代码模型现在还通过Instana,Watsonx Struckestrate和Maximo等产品中的产品,业务和行业4.0自动化为新的用例,为新的用例提供了动力。我们的花岗岩型号现在可以在包括Ollama,LM Studio,AWS,Nvidia,Google Vertex,Samsung等的各种平台上使用。建立在花岗岩3系的成功基础上,我们正在努力实现一个未来,AI代理可以通过称为Bee的开源框架可以轻松地解决业务需求。这使代理商可以快速开发业务应用程序。与美国国家航空航天局合作开发的气候和天气模式,用于跟踪重大的环境问题,例如西班牙的洪水破坏,亚马逊森林砍伐以及美国城市的热岛。我们很自豪地庆祝由IBM和META共同创立的AI联盟一年,旨在推动开放和负责的AI开发。该计划已发展为23个国家 /地区的140名成员,为负责任的模型,AI硬件和安全计划组成工作组。随着对AI的需求的增长,很明显,传统的CPU和GPU正在努力与这些模型的复杂性保持同步。我们需要创建从一开始设计的新设备,以有效地处理AI需求。IBM在半导体和基础设施中揭示了2024年在半导体和基础设施研究团队中发生的一些重大突破,重点是规模。8月,IBM揭开了Spyre,这是一种新的AI ACELERATOR芯片,用于子孙后代的Z和Power Systems,灵感来自AIU原型设计和Telum Chip的工作。这一突破是在意识到AI工作流程需要极低的AI推断后的突破。spyre具有32个单独的加速器芯,并包含使用5 nm节点工艺技术生产的14英里电线连接的256亿晶体管。芯片设计为聚集在一起,为单个IBM Z系统添加了更多的加速器核。与Spyre一起,企业可以在Z上部署尖端的AI软件,同时受益于IBM Z的安全性和可靠性。IBMResearch也一直在探索更有效地服务模型的方法。去年,该团队推出了其脑启发的AIU Northpole芯片,该芯片将记忆和加工单元共同取消,拆除了Von Neumann瓶颈。今年,在Northpole的硬件研究人员与AI研究人员之间的合作中,该团队使用Northpole用于生成模型创建了一个新的研究系统。该团队的潜伏期低于1毫秒的延迟,比下一个节能的GPU快了近47倍,而能量却减少了近73倍。另一个重大突破是在共包装光学领域的。此设备可以在硅芯片边缘的高密度光纤束,从而可以通过聚合物纤维进行直接通信。IBM Research Semiconductors部门中的一个团队生产了世界上第一个成功的聚合物光学波导,将光学的带宽带到了芯片边缘。该团队证明了光通道50微米的音高的可行性,这比以前的设计尺寸减少了80%。IBM研究人员在芯片设计和制造方面取得了重大突破。 他们开发了一种使用250微米螺距的新设备,该设备可能会缩小至20-25微米,从而大大增加带宽。 这项创新可能会导致AI模型的更快培训时间,并有可能节省能源,等同于每年为5,000个美国房屋供电。 此外,IBM的团队在缩小晶体管和使用Rapidus技术的2纳米过程设备方面取得了进步。 他们通过2纳米工艺成功构建了芯片,可以进行复杂的计算而不会过多的能耗。 这些突破增强了纳米片多VT技术,以替代当前的FinFET设备。 团队还使用高NA EUV系统从事EUV光刻,这使设计高性能逻辑设备可以扩展纳米片时代,并使未来垂直堆叠的晶体管超过1 nm节点。 IBM已经证明了降至21 nm螺距的线条的金属化,从而使铜达马斯斯互连的集成能够继续进行。 这些创新不仅是研究的努力;它们将变成可以大规模部署以解决实际业务问题的产品。IBM研究人员在芯片设计和制造方面取得了重大突破。他们开发了一种使用250微米螺距的新设备,该设备可能会缩小至20-25微米,从而大大增加带宽。这项创新可能会导致AI模型的更快培训时间,并有可能节省能源,等同于每年为5,000个美国房屋供电。此外,IBM的团队在缩小晶体管和使用Rapidus技术的2纳米过程设备方面取得了进步。他们通过2纳米工艺成功构建了芯片,可以进行复杂的计算而不会过多的能耗。这些突破增强了纳米片多VT技术,以替代当前的FinFET设备。团队还使用高NA EUV系统从事EUV光刻,这使设计高性能逻辑设备可以扩展纳米片时代,并使未来垂直堆叠的晶体管超过1 nm节点。IBM已经证明了降至21 nm螺距的线条的金属化,从而使铜达马斯斯互连的集成能够继续进行。这些创新不仅是研究的努力;它们将变成可以大规模部署以解决实际业务问题的产品。例如,IBM Spyre已经可用,将是下一代IBM Power 11的组成部分。AIU Northpole和共包装的光学设备在加拿大Bromont的IBM设施进行了测试和硬化。IBM量子通过整合量子和经典系统来解决复杂问题,从而加速其对混合计算的愿景。今年,该公司在推进其可扩展故障量量子计算机的路线图方面取得了长足的进步。在量子开发人员会议上,IBM展示了其进度,包括从高达5,000台门的运营中获得了苍鹭量子电路的精确结果。揭幕了一种新的,改进的苍鹭芯片,拥有156吨和出色的性能,错误率下降到8x10^-4。此外,IBM在创新方面取得了重大进步,包括使用Crossbill和L-COUPLER的M耦合器与火烈鸟的开发。这些突破使量子计算机更接近可扩展性和容忍性。此外,Qiskit V1.0是作为稳定版本发布的,巩固了其作为世界上最出色的量子软件开发套件的位置。此版本提供了改进的稳定性,并为Qiskit的60万开发人员提供了更长的支持周期。此外,还编译了一个名为Benchpress的基准集合,以准确演示Qiskit的性能。在针对其他量子软件(包括TKET,BQSKIT和CIRQ)的基准测试测试中,Qiskit在性能方面出现了明确的赢家,完成了比任何其他量子SDK的测试。IBM对创新的承诺可以追溯到80年前的成立。平均而言,在移动电路时,Qiskit的速度比TKET少54%。我们的软件工具集<div> Qiskit已经超越了性能SDK,以支持运行实用程序尺度量子工作负载的整个过程。这包括编写代码,后处理结果以及两者之间的所有内容。该工具集现在涵盖执行大规模工作负载所需的开源SDK和软件中间件。Qiskit Transpiler服务,更新的Qiskit Runtime Service,QISKIT AI Code Assistan Service,Qiskit Serverless和Qiskit功能等新功能使用户能够在更高的抽象级别访问高性能的量子硬件和软件。Qiskit功能,特别是将量子计算带给更广泛的受众群体的潜力。这是一项编程服务,允许用户在导入功能目录并传递其API令牌后,在IBM量子处理器和IBM Cloud上运行工作负载。该服务应用错误抑制和缓解措施,然后返回结果。通过结合软件和硬件突破,我们制作了以量子为中心的超级计算的第一个真实演示。我们与Riken合作发表了一篇论文,将此范式定义为超级计算,可以优化跨量子计算机和高级经典计算簇的工作。在我们的实验中,我们使用了多达6,400个fugaku超级计算机的节点,以帮助IBM Heron QPU模拟分子氮和铁硫簇。我们有信心,如果我们与古典HPC社区合作,我们可以在未来两年内实现量子优势。由于以量子为中心的超级计算出现,我们设想在一些最难的计算任务中协助经典计算机(反之亦然)的量子计算机。当前的加密方法取决于计算机将大数字分为主要因素的困难,随着数字的增长,这变得越来越具有挑战性。计算机科学家认为,研究人员已经证明,一台复杂的量子计算机可以通过应用Shor的算法在几个小时内破解RSA-2048加密,这对于计算机对于能够将大于2048位的数字的计算值至关重要。为了解决这一问题,IBM Research开发了三种新的数字签名算法-ML-KEM,ML-DSA和SLH-DSA,它们已被NIST接受竞争。为了确保平稳过渡到后量子后时代,IBM量子安全团队创建了一个用于网络弹性的路线图。这涉及了解组织的加密格局,确定需要更换的领域以及分析依赖性。企业可以使用诸如IBM量子安全探险家之类的工具来发现加密文物,生成密码材料清单(CBOM)并分析相关漏洞。IBM还为几项国家级计划做出了贡献,包括日本的Rapidus项目,该计划旨在使用芯片和高级包装以及AI驱动的Fab Automation开发2 NM芯片。此外,IBM与几个国家合作,以帮助他们确保其计算未来。在瑞士,IBM与Phoenix Technologies合作,在其位置安装了端到端的云AI超级计算机。该系统能够从数十个gpus扩展到数十个GPU,并具有IBM突破,例如基于IBM存储量表的灵活的基于RDMA的网络和高性能存储系统。使用OpenShift容器平台和OpenShift AI构建了云本地AI平台,可根据需要提供对WATSONX.AI的访问。IBM设置为全球主权AI Cloud Solutions的动力,从Kvant AI开始,该解决方案旨在提供特定于行业的AI应用程序。该公司还将通过投资其Bromont设施来加强与加拿大和魁北克政府的合作伙伴关系,从而巩固北美芯片供应链的未来。此外,IBM半导体研究导致了纳米片技术和2 nm节点等突破,并且新的NSTC EUV加速器将位于Albany Nanotech综合体。IBM还通过开设其在欧洲的第一个量子数据中心并与Riken合作安装IBM量子系统两个,从而在全球扩展量子计算。该公司还将IBM系统带到韩国和法国,同时与西班牙,沙特阿拉伯和肯尼亚等政府合作开发特定语言的AI模型并监视造林工作。托马斯·沃森(Thomas Watson)认为,从制表机,尺度和打孔时钟的早期,投资研究的价值。IBM继续发现新的想法和设计工具,以满足不断变化的行业需求,从而巩固了其作为计算领域的领导者的地位。 这个开创性的研究机构致力于推动现代科学的界限并取得渐进的进步。IBM继续发现新的想法和设计工具,以满足不断变化的行业需求,从而巩固了其作为计算领域的领导者的地位。这个开创性的研究机构致力于推动现代科学的界限并取得渐进的进步。IBM研究:八十年前的科学突破的遗产,哥伦比亚大学教授华莱士·埃克特(Wallace Eckert)领导了沃森科学计算实验室IBM Research成为前身的建立。在1956年,IBM建立了一个专门的研究部门,到本世纪末,他们需要更多的空间来探索迅速发展的计算世界。我们通过在我们的思想实验室中构建创新的解决方案来启动我们的旅程,以塑造计算的未来。在这里,研究人员与来自不同背景的专业人员合作,以解决看似不可能的项目。我们的内部工具(如花岗岩模型)被用来增强我们的产品,而代理框架为Qiskit供电代理。最近的合作导致了加速的发现,回应了托马斯·沃森(Thomas Watson)80年前的开拓精神。我们应对未来80年的挑战时,下一章的创新就在未来。