凭借性能密度和每瓦性能方面的业界领先进步,Qualcomm Cloud AI 100 平台在最新基准测试的所有评分卡中均处于领先地位。
MLPerf 训练基准定义我们将 MLPerf 训练基准 5 指定为在特定数据集上训练模型以达到目标质量。例如,一个基准测量在 ImageNet 数据集上的训练,直到图像分类 top-1 准确率达到 75.9%。然而,这个基本定义并没有回答一个关键问题:我们是否指定要训练哪个模型?指定模型可以对软件或硬件替代方案进行同类性能比较,因为它要求所有替代方案处理相同的工作负载。但是,不指定模型则鼓励模型改进和软硬件协同设计。我们将结果分为两个部分:封闭部分需要使用特定模型进行直接比较,开放部分允许使用任何模型来支持模型创新。
要实施人工智能 (AI) 并获得其好处,您必须考虑解决方案的所有方面。找到能够提供端到端支持的合作伙伴至关重要,包括规划、数据准备、硬件选择、AI 模型设计、概念验证测试、参考架构和端到端支持。在此摘要中,我们根据公开的 MLPerf ® 基准测试结果,重点介绍了戴尔™ AI 产品组合中的服务器相对于 Supermicro 的性能和空间优势。MLPerf ® 在多个 AI 模型上测试训练和推理的性能。本摘要中的数据来自 2023 年 11 月在 MLCommons ® 网站上发布的 MLPerf ® v3.1 推理数据中心结果。1 我们还比较了有关每个供应商为支持 AI 部署而提供的产品和解决方案范围的公开信息。
随着人工智能 (AI) 硬件和机器学习 (ML) 算法的发展,半导体行业开发了新一代标准化基准,例如 MLPerf™,用于衡量特定于 AI 的工作负载和推理能力的性能。这些基准包括 IBM DVS128 Gesture Dataset、ImageNet 和 GLUE。尽管一些基准测试组织继续引入新的领域和子类别来衡量边缘的 AI 推理,但这些新增内容通常受到过分强调孤立 TOPS 的限制,并且无法有效量化以功耗为主要关注点的实际用例的结果。
企业正在寻求使用主流基础架构来满足其计算需求,但是培训最先进的模型需要大量的计算能力。对于LLM型号,八个L40S在主流服务器中的培训表现为NVIDIA HGX™A100 8-GPU系统的训练性能,使Enterprises通过传统的基础架构快速解决解决方案。与推理的A100 80GB SXM相比,L40S使用stablediffusion提供了高达1.2倍的生成AI推理性能,并且在流行网络上(例如MLPerf Benchmark中包含的网络)提供了高达1.5倍的推理性能。
左图:应用程序加速的几何平均值与P100 |基准应用| Amber [PME-Cellulose_NVE],Chroma [HMC},Gromacs [Adh Dodec],MILC [Apex Medive],NAMD [STMV_NVE_CUDA],PYTORCH(BERT大调谐器],量子[Ausurf112-Jr];带有4倍P100,V100或A100 GPU的双插入CPUH100值为2022预计性能的值| |从2021年11月开始的Top500数据| Green500数据从2021年11月开始,MLPERF名称和徽标是美国和其他国家的MLCommons协会的商标。保留所有权利。未经授权的使用严格禁止。有关更多信息,请参见www.mlcommons.org。
1.NVIDIA 是一家设计 GPU 技术的技术公司,为 AI 领域做出了重大贡献,包括为深度学习和其他 AI 应用开发硬件和软件解决方案。NVIDIA 的 GPU 及其 CUDA 平台(用于 AI 和高性能计算的并行计算平台)用于运行复杂的机器学习模型。根据 MLPerf Benchmarks,NVIDIA 在商用产品中提供全球最快的 AI 训练性能。因此,正如他们在博客中所述,他们被亚马逊、百度、Facebook、麻省理工学院和斯坦福大学等公司和机构选为其 AI 计划。NVIDIA 的硬件和软件解决方案使组织能够更有效地构建和部署 AI 应用程序。
服务器是支持 AI 工作负载的基础计算基础设施,它可以根据工作负载的大小或类型使用 CPU、GPU 或两者作为计算资源。对于 HPC 或 AI 等更大或要求更高的工作负载,GPU 可提供最佳性能。GPU 具有多种外形尺寸,包括通用 PCIe、开放计算项目加速器模块 (OAM) 和专有的 NVIDIA SXM 架构,后者目前可提供最佳性能。1 大内存容量和服务器设计功能(例如冷却架构和功率效率)也会影响性能。大多数数据中心仍使用空气冷却,这意味着 AI 工作负载需要尽可能有效地用空气冷却的服务器。下面,我们将重点介绍 Dell PowerEdge 服务器产品的组件、冷却选项等,以及它们发布的 MLCommons ® MLPerf ® 分数。
随着 AI(人工智能)变得无处不在,在 IT(信息技术)支出方面,推理将超过训练处理。解决方案提供商正在满足对大型 AI 推理工作负载日益增长的需求。Qualcomm Technologies, Inc. 十多年来一直致力于设计和生产 AI 硬件和软件,并借助 Qualcomm ® Cloud AI 100 平台从移动处理器扩展到数据中心市场,该平台是专为加速云和边缘基础设施中的推理工作负载而构建的解决方案。HPE 已采用此 AI 加速器将其纳入公司的服务器产品中。凭借最新的 MLPerf™ 2.1 基准测试结果,Qualcomm Technologies 凭借 Qualcomm Cloud AI 100 为节能推理处理设定了更高的标准,实现了最高的性能/瓦特。这些优势源于 Qualcomm Technologies 在 75 瓦低功率范围内的卓越性能。
13:20-14:10 使用模拟内存计算加速 AI Stefano Ambrogio (IBM 研究) 摘要:过去十年见证了 AI 在各种领域的广泛传播,从图像和视频识别和分类到语音和文本转录和生成。总体而言,我们观察到人们不断追求具有大量参数的大型模型。这导致计算工作量急剧增加,需要多个 CPU 和 GPU 来训练和推理神经网络。因此,硬件的改进变得越来越重要。为了适应改进的性能,内存计算提供了一个非常有趣的解决方案。虽然数字计算核心受到内存和处理器之间数据带宽的限制,但内存中的计算避免了权重转移,从而提高了功率效率和速度。演讲将描述一个总体概述,重点介绍我们自己的 14 纳米芯片,该芯片基于 34 个相变存储器技术交叉阵列,总共约有 3500 万个设备。我们在选定的 MLPerf 网络中展示了这种架构的效率,表明 Analog-AI 可以提供优于数字核心的功率性能,同时具有相当的准确性。然后,我们为开发可靠、高效的 Analog-AI 芯片的下一步提供了指导方针,特别关注实现更大、更完善的深度神经网络所需的架构约束和机会。