12 Habana Gaudi2 深度学习加速器:所有测量均使用 Habana SynapseAI 版本 1.10 和 optimum-habana 版本 1.6 在 HLS2 Gaudi2 服务器上进行,该服务器具有八个 Habana Gaudi2 HL-225H 夹层卡和两个 Intel Xeon Platinum 8380 CPU @ 2.30GHz 和 1TB 系统内存。性能测量于 2023 年 7 月进行。第四代英特尔至强 8480:英特尔第四代至强铂金 8480+ 2 插槽系统,112 核/224 线程,Turbo Boost 开启,超线程开启,内存:16x32GB DDR5 4800MT/s,存储:953.9GB);操作系统:CentOS Stream 8;内核:5.15.0-spr.bkc.pc.16.4.24.x86_64;批次大小:1;在 1 个插槽上测量:1;PyTorch 每日构建 0711;英特尔® PyTorch 扩展标签 v2.1.0.dev+cpu.llm;模型:Llama 2 7B 和 Llama 2 13B;数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);波束宽度 4;精度:BF16 和 INT8;英特尔于 2023 年 7 月 12 日进行测试。英特尔至强 Max 9480:英特尔至强 Max 9480 2 插槽系统,112 核/224 线程,Turbo Boost 开启,超线程开启,内存:16x64GB DDR5 4800MT/s;8x16GB HBM2 3200 MT/s,存储:1.8TB;操作系统:CentOS Stream 8;内核:5.19.0-0812.intel_next.1.x86_64+server;批次大小:1;在 1 个插槽上测量;PyTorch nightly build0711;英特尔® PyTorch 扩展 llm_feature_branch;模型:Llama 2 7B 和 Llama 2 13B,数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);波束宽度 4;精度:BF16 和 INT8;英特尔于 2023 年 7 月 12 日进行测试。英特尔数据中心 GPU Max 系列:1 个节点、2 个英特尔至强铂金 8480+、56 个内核、超线程开启、睿频开启、NUMA 2、总内存 1024GB(16x64GB DDR5 4800 MT/s [4800 MT/s])、BIOS SE5C7411.86B.9525.D19.2303151347、微码 0x2b0001b0、1 个以太网控制器 X710(用于 10GBASE-T)、1 个 1.8T WDC WDS200T2B0B、1 个 931.5G 英特尔 SSDPELKX010T8、Ubuntu 22.04.2 LTS、5.15.0-76-generic、4 个英特尔数据中心 GPU Max 1550(仅使用单个 OAM 的单个 Tile 进行测量) GPU 卡)、IFWI PVC 2_1.23166、agama 驱动程序:agama-ci-devel-627.7、英特尔 oneAPI 基础工具包 2023.1、PyTorch 2.0.1 + 英特尔 PyTorch 扩展 v2.0.110+xpu(dev/LLM 分支)、AMC 固件版本:6.5.0.0、型号:Meta AI Llama 2 7B 和 Llama 2 13B、数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);贪婪搜索;精度 FP16;由英特尔于 2023 年 7 月 7 日测试。
主要关键词