许多技术预测者预测,至少要到 2045 年,业界才能生产出可以与人脑相媲美的人工智能 (AI) 技术,以人脑突触数量或 AI 参数来衡量。请注意,我们这里不是在谈论终结者式的 AI,或“通用 AI”。我们谈论的是可以处理单个但复杂任务的 AI,例如自然语言处理。人类大脑皮层平均有大约 800 亿到 1000 亿个神经元和 120 万亿个突触。为了论证的目的,我们假设 AI 模型中的参数大致等于突触。有史以来训练的最大的 AI 是来自 OpenAI.org 的 GPT3 自然语言模型,有 1750 亿个参数,大约是大脑大小的 1/1000。因此,120 万亿是巨大的,大约是当今最先进技术的 1000 倍。
除了大公司之外,中小企业也变得更加活跃,由于已经形成的市场利基多种多样,它们已经确定了将要开展工作的领域,并积极开始为未来产品开发有前景的销售市场 [4]。这类组织的例子包括为英特尔开发计算机芯片的 Nervana。根据新的技术趋势,它们的芯片配备了内置 AI,可以根据对载体运行的观察来优化其进一步活动,从而影响其耐磨性和速度。位于美国硅谷的初创公司 Cerebras 目前正在实施一个类似的商业项目。据《福布斯》报道,到 2018 年初,该公司已成功吸引了 1 亿美元的投资资本。
超过了现成的 CPU(例如 Cerebras 的 400,000 核 CS-1 晶圆级引擎 [2])和用于资源受限系统的小型 NN 解决方案,其主要优势是面积和功耗效率。本期特刊致力于基于随机计算 (SC) 范式的 NN 硬件实现 [3],[4]。虽然本质上是数字化的,但 SC 提供了模拟计算所具有的几个优势:某些原语的实现非常紧凑且节能——包括 NN 中普遍存在的乘法器和加法器——并且与传感器和执行器具有天然兼容性。此外,SC 没有位有效性的概念,因此相对而言具有容错性。机器学习和模式识别是 20 世纪 60 年代 SC 最初发展的主要驱动力 [3],但当时的研究人员未能实现可扩展性和大规模采用。
摘要 — 科学应用越来越多地采用人工智能 (AI) 技术来推动科学发展。高性能计算中心正在评估新兴的新型硬件加速器,以有效运行 AI 驱动的科学应用。由于这些系统的硬件架构和软件堆栈种类繁多,因此很难理解这些加速器的性能。深度学习工作负载评估的最新进展主要集中在 CPU 和 GPU 上。在本文中,我们概述了 SambaNova、Cerebras、Graphcore 和 Groq 的基于数据流的新型 AI 加速器。我们首次对这些加速器进行了评估,评估内容包括深度学习 (DL) 原语、基准模型和科学机器学习应用程序等多种工作负载。我们还评估了集体通信的性能,这对于分布式 DL 实现至关重要,同时还研究了扩展效率。然后,我们讨论将这些新型 AI 加速器集成到超级计算系统中的关键见解、挑战和机遇。
人工智能 (AI) 芯片使用半导体来提供强大的处理器,可使需要高计算资源的领域受益,例如气候、能源、健康和安全。“AI 芯片”一词是指最近一代专门设计用于更快地处理人工智能任务的微处理器。AI 芯片是综合硅片,集成了 AI 技术并用于机器学习。(Viswanathan, 2020) 在过去十年中,深度学习技术领域取得了许多进步。自 2013 年以来,已经开发了各种新型 AI 芯片以及基于这些芯片的产品 (Momose, 2020)。中央处理器 (CPU) 等通用芯片也可以用于一些更简单的 AI 任务,但随着 AI 的发展,CPU 变得越来越不实用 (Saif M. Khan, 2020)。AI 芯片包括图形处理单元 (GPU)、现场可编程门阵列 (FPGA) 和专用于 AI 的专用集成电路 (ASIC)。AI 芯片包括图形处理单元 (GPU)、现场可编程门阵列 (FPGA) 和专用于 AI 的专用集成电路 (ASIC)。图形处理单元 (GPU) GPU 最初设计用于处理游戏等图形密集型任务。GPU 旨在处理并行性并提供高性能,这是并行性导致深度学习 AI 算法所必需的。GPU 是一种出色的 AI 硬件,在创意制作和 AI 中越来越受欢迎。现场可编程门阵列 (FPGA) FPGA 是可编程阵列,可以根据需求重新编程。FPGA 是具有逻辑门阵列的集成电路硅芯片:该阵列可以在现场编程,即用户可以用新定义的配置覆盖现有配置,并可以创建自己的数字电路。FPGA 因其灵活性而价格昂贵。(Pandit,2019) 专用集成电路 (ASIC) ASIC 芯片专为 AI 应用而设计,并与 AI 算法集成。基于 ASIC 的 AI 芯片有不同类型。本报告介绍了 Graphcore、Cerebras、SambaNova 等 AI 芯片以及 Nvidia、Intel、AMD 的 GPU 以及 Google TPU 的技术比较和编程模型规范。这是一项持续进行的工作,旨在评估尽可能多的 AI 芯片。截至撰写本文时,只有 Cerebras、Graphcore 和 Nvidia GPus 可用。本报告不偏袒任何供应商,且与供应商无关。
世界顶级高性能计算设施之一 劳伦斯利弗莫尔是顶级高性能计算设施利弗莫尔计算 (LC) 的所在地。LC 拥有超过 3.28 百亿亿次浮点运算的峰值计算能力和众多 TOP500 系统,包括排名第一的 2.79 百亿亿次浮点运算 El Capitan 系统、294+ 千万亿次浮点运算 Tuolumne 系统和 125 千万亿次浮点运算 Sierra 系统。这些旗舰超级计算机支持 GPU,能够以前所未有的分辨率生成 3D 多物理场模拟,满足各种关键任务需求。LLNL 还与 Cerebras Systems 和 SambaNova 等行业合作伙伴合作,将尖端人工智能硬件与顶级高性能计算机相结合,以提高模型的保真度并管理不断增长的数据量,从而提高速度、性能和生产力。LC 平台由我们经 LEED 认证的创新基础设施、电力和冷却设施提供支持;存储基础设施包括三种文件系统和世界上最大的 TFinity 磁带档案库;以及最高质量的客户服务。我们的软件生态系统展示了我们在许多大型开源项目中的领导地位,从带有 Lustre 和 ZFS 的 TOSS 到获得 R&D 100 奖的 Flux、SCR 和 Spack。
世界首屈一指的高性能计算设施之一 劳伦斯利弗莫尔是利弗莫尔计算 (LC) 的所在地,利弗莫尔计算是世界首屈一指的高性能计算设施之一。LC 拥有超过 188 千万亿次浮点运算能力和众多 TOP500 系统,包括 125 千万亿次浮点运算的 Sierra。Sierra 延续了世界级 LLNL 超级计算机的悠久历史,代表着迈向百亿亿次计算的倒数第二步,预计到 2023 年,LLNL 系统 El Capitan 将实现这一目标。这些旗舰系统支持 GPU,能够以前所未有的分辨率生成 3D 多物理场模拟,满足各种关键任务需求。2020 年,LLNL 和 Cerebras Systems 将世界上最大的计算机芯片集成到 Lassen 系统中,用尖端的 AI 技术升级了这台顶级超级计算机。这种结合创造了一种全新的计算解决方案,使研究人员能够研究预测建模的新方法。这些平台由我们经 LEED 认证的创新基础设施、电力和冷却设施提供支持;存储基础设施包括三种文件系统和世界上最大的 TFinity 磁带存档;以及顶级客户服务。我们行业领先的软件生态系统展示了我们在许多大型开源项目中的领导地位,从带有 Lustre 和 ZFS 的 TOSS 到获得 R&D 100 奖的 SCR 和 Spack。
世界上首要的高性能计算设施之一劳伦斯·利弗莫尔(Lawrence Livermore)是Livermore Computing(LC)的所在地,Livermore Computing是世界上最重要的高性能计算设施之一。LC拥有188多个PETAFLOPS的计算能力和许多Top500系统,包括125-Petaflop Sierra。继续延续世界一流的LLNL超级计算机的长血统,塞拉代表了通往Exascale Computing道路的倒数第二步,预计将在2023年通过称为El Capitan的LLNL系统实现。这些旗舰系统具有GPU的支持,并以3D的形式在从未见过的各种关键任务需求的情况下进行了多物理模拟。在2020年,LLNL和小脑系统将世界上最大的计算机芯片集成到Lassen系统中,并使用尖端的AI技术升级顶级超级计算机。这种组合创造了一种根本新型的计算解决方案,使研究人员能够研究新颖的预测建模方法。这些平台得到了我们的LEED认证,创新的基础设施,权力和冷却设施的支持;一个存储基础架构,包括三种文件系统和世界上最大的tfinity磁带档案;和顶级客户服务。我们的行业领先软件生态系统展示了我们对许多大型开源工作的领导,从折腾和ZFS到R&D 100屡获殊荣的SCR和SPACK。
世界上首要的高性能计算设施之一劳伦斯·利弗莫尔(Lawrence Livermore)是Livermore Computing(LC)的所在地,这是一家首要的高性能计算设施。LC拥有200多个PETAFLOP的计算能力和许多Top500系统,包括125-Petaflop Sierra系统。继续世界一流的LLNL超级计算机的血统,塞拉代表了Exascale Computing道路上的倒数第二步,预计将通过称为El Capitan的LLNL系统在2023年实现。这些旗舰系统具有GPU的支持,并以3D的形式在从未见过的各种任务需求的情况下进行了多物理模拟。在2020年,LLNL和小脑系统将世界上最大的计算机芯片集成到Lassen系统中,并使用尖端的AI技术升级顶级超级计算机。这种组合创造了一种根本新型的计算解决方案,使研究人员能够研究新颖的预测建模方法。这些平台得到了我们的LEED认证,创新的基础设施,权力和冷却设施的支持;一个存储基础架构,包括三种文件系统和世界上最大的tfinity磁带档案;和顶级客户服务。我们的行业领先的软件生态系统展示了我们对许多大型开源工作的领导,从与光泽和ZFS一起抛弃到R&D 100屡获殊荣的Flux,SCR和SPACK。