MME 简介 英特尔® Gaudi® 3 AI 加速器矩阵乘法引擎 (MME) 代表英特尔® Gaudi® 加速器系列 MME 引擎的第 5 代。这些 MME 是专用的高性能计算核心,专为矩阵运算而设计,矩阵运算是深度学习算法的基础计算类型。英特尔® Gaudi® 3 AI 加速器包含八个这样的 MME,每个 MME 都能够执行令人印象深刻的 64K 并行运算。这种大规模并行性可实现高度的计算效率,使这些 MME 特别擅长处理深度学习工作负载中普遍存在的复杂矩阵运算。
在训练场景中,英特尔® Gaudi® 3 加速器相对于上一代产品几乎所有的先进功能都发挥了作用。由于训练场景是计算密集型的,因此增加的计算比率可带来立竿见影的效果。增加的 HBM 带宽允许更大的计算来体现增加的计算能力。此外,更大的 HBM 容量也有助于提高性能。更大的 HBM 容量允许增加批处理大小,从而实现更高的计算利用率,并避免重新计算某些部分工作负载或避免模型并行拆分,从而在运行时增加网络操作。一般而言,LLM 推理吞吐量由可用的 HBM 带宽决定,可用于读取模型参数和上下文窗口。将英特尔® Gaudi® 3 加速器与英特尔® Gaudi® 2 加速器进行比较时,我们发现对于小型 LLM(13B 大小的模型或更小),加速比与两代加速器之间的 HBM 带宽比率相似,大约为 1.5 倍。然而,当比较较大的 LLM 模型(如 LLama-70B 和 Falcon-180B)时,我们看到改进大于 HBM 带宽比,并且超过了 2 倍的比率。更大的改进是由于英特尔® Gaudi® 3 加速器可用的内存容量更大。这种更大的容量允许使用更大的批处理大小,因此可以在给定的时间内处理更多的样本。
A100-80GB:由 Habana 于 2022 年 1 月在 Azure 实例 Standard_ND96amsr_A100_v4 上使用单个 A100-80GB 和来自 NGC 的 TF docker 21.02-tf2-py3 进行测量(第 1 阶段:Seq len=128、BS=312、accu steps=1024;第 2 阶段:seq len=512、BS=40、accu steps=3072)A100-40GB:由 Habana 于 2022 年 1 月在 DGX-A100 上使用单个 A100-40GB 和来自 NGC 的 TF docker 21.12-tf2-py3 进行测量(第 1 阶段:Seq len=128、BS=64、accu steps=1024;第 2 阶段:seq len=512, BS=16,accu steps=2048)V100-32GB:由 Habana 于 2022 年 1 月在 p3dn.24xlarge 上使用单个 V100-32GB 和来自 NGC 的 TF docker 21.12-tf2-py3 进行测量(第 1 阶段:Seq len=128、BS=64、accu steps=1024;第 2 阶段:seq len=512、BS=8、accu steps=4096)英特尔® Gaudi®2:由 Habana 于 2022 年 4 月在英特尔® Gaudi®2 -HLS 系统上使用单个英特尔® Gaudi®2 和 SynapseAI® TF docker 1.4.0-435 进行测量(第 1 阶段:Seq len=128、BS=64、accu steps=1024;第 2 阶段:seq len=512, BS=16,准确步骤=2048)结果可能有所不同。
DDN AI400X 存储设备是 DDN A³I 解决方案的一部分,它提供了一个完全集成的共享数据平台,可直接向 Supermicro X12 服务器提供超过 50 GB/s 和每秒 300 万次输入/输出操作 (IOPS)。6 DDN AI400X 设备集成了 DDN A³I 共享并行架构,可提供冗余和自动故障转移功能,并为基于 Habana Gaudi 处理器的集群提供数据弹性。存储设备在 Supermicro X12 服务器上运行的存储和容器化应用程序之间提供多条并行路径,从而实现低延迟。DDN AI400X 设备还提供冗余和自动故障转移功能,以实现高可用性,并支持在 AI 集群中的所有 Supermicro X12 服务器上并发和连续执行 DL 训练。
AWS EC2 实例中的 Gaudi 加速器可利用多达 8 个 Gaudi 加速器,与当前基于 GPU 的 EC2 训练实例相比,性价比高出 40%
IntelGaudi®3的内置以太网链接每个都提供200GBPS。8 XGaudi®3模块可以达到4,200GB/s的理论峰带宽,从而消除了后端对外部NIC的需求,同时提供了比专有替代方案更高的骨料带宽。与前端的Intel E810 NIC搭配,系统可确保10/25GBE速度,高级数据包过滤和ROCEV2支持,为外部延迟敏感的数据流量提供可扩展且高性能的网络。newGaudi®3AI加速器提供高达20%的吞吐量和2倍的价格/绩效,以推理Llama 2 70B与领先的竞争对手,赋予企业能力以增强其AI工作量而不损害效率。请参阅Intel®Gaudi®3和Dell PowerEdge XE9680如何共同努力,以支持要求AI计划。
来源Intel测量的结果与H100数据源:https://github.com/nvidia/tensorrt-llm/blob/ain/ain/main/main/aind/courds/cource/perferct/perf-overview.md Input-uptup-output序列:128-2048tps on 2 Accelerators/gpus/gpus。Intel结果在2024年11月9日获得。硬件:两个Intel Gaudi 3 AI加速器(128 GB HBM)与两个NVIDIA H100 GPU(80 GB HBM); 。软件:Intel Gaudi软件版本1.18.0。有关H100软件详细信息,请参见NVIDIA链接。结果可能会有所不同。基于公开信息的定价估算和英特尔内部分析
复杂模型。其模块化设计从八个SYS-822GA-NGR3Intel®Gaudi®AI服务器解决方案的单个群集段开始,可以扩展到512个节点(4,096 GPU,64个群集段),同时又适应了增长AI工作量。其灵活性和能源效率使组织能够在AI创新的最前沿管理运营成本。由Intel®Gaudi®3AI加速器和Intel®Xeon®6带有性能核的处理器,SuperMicro正在构建专门构建的群集,可用于运行各种多租户数据中心的所有尺寸的深度学习工作负载。凭借Supermicro在大规模建立数据中心方面已经有经验的专业知识,因此创建解决方案作为生成AI计算能力,价格,能源效率和市场可用性的可行替代方案令人兴奋。
ExaML 单跳 ExaML 单跳 ExaML 单跳 ExaML 两跳 ExaML 两跳 ExaML 两跳 ExaML 两跳 ExaML 两跳 ExaML 两跳 Dell PowerEdge IBM PowerSystem Nvidia DGX-1 Intel Gaudi Nvidia DGX-2 IBM Summit SNSC Piz Daint Microsoft Philly Google TPU Pod Sunway TaihuLight Nvidia SuperPod
“在 Arcee AI,我们正在利用小型语言模型突破生成式人工智能的界限,而英特尔的技术对我们的成功起到了至关重要的作用。英特尔 CPU 的性能经过优化,尤其是其 Xeon® P 核以及用于 LLM 训练和推理的 Gaudi® 计算系列,使我们能够以前所未有的速度和效率训练和部署我们的模型。不仅如此,英特尔的机密计算能力让我们有信心处理敏感数据,确保用户的信任和隐私。通过利用英特尔基础设施的强大功能,我们正在为人工智能驱动的应用程序释放新的可能性,这些应用程序可以改变行业并改善生活。”