本文是基于跨越架构、工程、项目管理和产品管理等职能领域的技术专家团队的共同努力而创作的,特别是 Alexander Kanevskiy、Antti Kervinen、Atanas Atanasov、Brian Meaney、Chris MacNamara、Denisio Togashi、Derek Chilcote Bacco、Eero Tamminen、Eric Adams、Feruzjon Muyassarov、Gershon Schatzberg、Jukka Rissanen、 Krisztian Litkey、Lukasz Danilczuk、Madalina Lazar、Matti-Pekka Sivosuo、Markus Lehtonen、Marlow Weston、Martin Xu、Michael Fu、Michael Kadera、Mikko Ylinen、Patricia Cahill、Peter Mangan、Philip Brownlow、Samu Kaajas、Tuomas Katila、Thijs Metsch 和 Ukri Niemimuukko。这里要列出的还有很多,但可以通过点击广泛的参考资料部分来查看许多相关个人和团队的更详细的文档和代码。
人工智能无处不在,涉及各种关键工作负载。从核心企业应用程序到自动语音服务员,经典机器学习 (ML) 和深度学习模型正在成为业务运作的基本构建模块。大规模使用人工智能依赖于从数据预处理到训练再到部署的漫长开发流程。每个步骤都有自己的开发工具链、框架和工作负载——所有这些都会产生独特的瓶颈并对计算资源提出不同的要求。英特尔至强可扩展处理器具有内置加速器,可用于开箱即用地运行整个流程并全面提高人工智能性能。英特尔® 加速器引擎是专门构建的集成加速器,支持最苛刻的新兴工作负载。
我们的测试表明,使用美光 DDR5 和第四代英特尔至强处理器,以及英特尔® 高级矩阵扩展 (AMX)(一种用于在 CPU 上进行深度学习、训练和推理的新型内置加速器),可为 AI 应用提供必要的计算能力、内存带宽和容量。与 DDR4-3200 相比,美光 DDR5-4800 的内存带宽提高了 2 倍。除了提高数据速率外,美光 DDR5 还增加了两倍的存储体组、突发长度 (BL16) 和改进的刷新方案,可提供比 DDR4-3200 高得多的有效带宽,超出了更高数据速率本身所能实现的效果。与第三代英特尔至强 8380 CPU 相比,最新的第四代英特尔至强 8490H CPU 的核心数量增加了 50%,并改进了缓存架构(即速度和容量),以提高 AI 推理的性能。为了增加 CPU 核心数量,美光 DDR5 增加了突发长度,每个 DIMM 启用两个独立通道,使服务器平台可用的内存通道增加一倍,以实现更多并发操作。
警告:心力衰竭风险 CAMZYOS 会降低左心室射血分数 (LVEF),并可能因收缩功能障碍导致心力衰竭。在使用 CAMZYOS 治疗之前和治疗期间,需要通过超声心动图评估 LVEF。不建议 LVEF <55% 的患者开始使用 CAMZYOS。如果在任何一次就诊时 LVEF <50% 或患者出现心力衰竭症状或临床状况恶化,则应中断 CAMZYOS。同时使用 CAMZYOS 与某些细胞色素 P450 抑制剂或停用某些细胞色素 P450 诱导剂可能会增加因收缩功能障碍导致心力衰竭的风险;因此,CAMZYOS 禁用于以下情况:• 中至强 CYP2C19 抑制剂或强 CYP3A4 抑制剂• 中至强 CYP2C19 诱导剂或中至强 CYP3A4 诱导剂由于收缩功能障碍导致心力衰竭的风险,CAMZYOS 只能通过风险评估和缓解策略 (REMS) 下称为 CAMZYOS REMS 计划的限制计划获得。
声明和免责声明 1. 在搭载英特尔 SGX 和英特尔 AMX 的第四代至强可扩展处理器上运行 TensorFlow ResNet50 推理工作负载时,性能提升高达 7.57 倍。请参阅下面的配置详细信息。 2. 在搭载英特尔 SGX 和英特尔 AMX 的第四代至强可扩展处理器上运行 Bert-Large 推理工作负载时,性能提升高达 5.26 倍。请参阅下面的配置详细信息。 3. 与上一代相比,在搭载英特尔 SGX 和英特尔 AMX 的第四代英特尔至强可扩展处理器上以 INT8 精度运行 Bert-Large 推理工作负载时,性能提升高达 4.61 倍。请参阅下面的配置详细信息。 4. 在配备英特尔 SGX 和英特尔 AMX 而非 FP32 的第四代英特尔至强可扩展处理器上运行 TensorFlow ResNet50 推理工作负载时,INT8 精度下的性能提升高达 8.02 倍,BF16 精度下的性能提升高达 4.30 倍。请参阅下面的配置详细信息。5. 在配备英特尔 SGX 和英特尔 AMX 而非 FP32 的第四代英特尔至强可扩展处理器上运行 Bert-Large 推理工作负载时,INT8 精度下的性能提升高达 5.46 倍,BF16 精度下的性能提升高达 4.17 倍。请参阅下面的配置详细信息。配置详细信息测试 1:截至 2022 年 11 月 21 日,英特尔进行测试。1 节点、2x 英特尔® 至强® 铂金 8380 CPU @ 2.30GHz、40 个内核、超线程关闭、睿频开启、总内存 512 GB(16x32GB DDR4 3200 MT/s [运行速度为 3200 MT/s])、BIOS 版本 SE5C6200.86B.0022.D64.2105220049、ucode 版本 0xd000375、操作系统版本 Ubuntu 22.04.1 LTS、内核版本 6.0.6-060006-generic、工作负载/基准使用 Fortanix 在安全区域内进行深度学习推理、框架版本 TensorFlow 2.11、模型名称和版本ResNet50v1.5/Bert-Large TEST-2:截至 2022 年 11 月 21 日,英特尔进行测试。1 节点、2x 英特尔® 至强® 铂金 8480+ CPU @ 2.0GHz、56 核、超线程关闭、睿频开启、总内存 512 GB(16x32GB DDR5 4800 MT/s [运行于 4800 MT/s])、BIOS 版本 3A05、ucode 版本 0x2b000070、操作系统版本 Ubuntu 22.04.1 LTS、内核版本 6.0.6-060006-generic、工作负载/基准使用 Fortanix 在安全区域中进行深度学习推理、框架版本 TensorFlow 2.11、模型名称和版本 ResNet50v1.5/Bert-Large 性能因使用情况、配置和其他因素而异。欲了解更多信息,请访问性能指数网站。性能结果基于截至配置中所示日期的测试,可能无法反映所有公开可用的更新。有关配置详细信息,请参阅备份。没有任何产品或组件能够绝对安全。您的成本和结果可能会有所不同。英特尔技术可能需要启用硬件、软件或激活服务。© 英特尔公司。英特尔、英特尔徽标和其他英特尔标志是英特尔公司或其子公司的商标。其他名称和品牌可能是其他财产。
英特尔® TensorFlow 优化 与 Google 合作,TensorFlow 使用英特尔® oneAPI 深度神经网络库 (oneDNN) 的原语直接针对英特尔® 架构 (IA) 进行了优化。通过设置与 CPU 相关的配置 (--config=mkl) 编译的最新 TF 二进制版本已作为工具包的一部分包含在内。
在本设计测试中,我们使用 BERT-Large 无大小写(全词掩码)预训练模型作为模型检查点。该模型包含 3.4 亿个参数。我们使用斯坦福问答数据集 (SQuAD) v1.1 数据集进行微调分析。用例要求按照英特尔架构 Model Zoo 在线存储库文档 中所述执行。为了展示使用可扩展端到端企业 AI 堆栈解决方案进行 BERT-Large 微调的性能和可扩展性,我们使用了潜在的英特尔优化,例如针对 oneDNN 优化的 TensorFlow 和用于分布式训练的 Horovod。Horovod 与英特尔® MPI 库 一起部署,进一步利用了英特尔在 MPI 层的优化。我们使用容器映像和一组 MPIJob 规范文件在 Kubeflow 的训练运算符上运行 BERT-Large 工作负载。
12 Habana Gaudi2 深度学习加速器:所有测量均使用 Habana SynapseAI 版本 1.10 和 optimum-habana 版本 1.6 在 HLS2 Gaudi2 服务器上进行,该服务器具有八个 Habana Gaudi2 HL-225H 夹层卡和两个 Intel Xeon Platinum 8380 CPU @ 2.30GHz 和 1TB 系统内存。性能测量于 2023 年 7 月进行。第四代英特尔至强 8480:英特尔第四代至强铂金 8480+ 2 插槽系统,112 核/224 线程,Turbo Boost 开启,超线程开启,内存:16x32GB DDR5 4800MT/s,存储:953.9GB);操作系统:CentOS Stream 8;内核:5.15.0-spr.bkc.pc.16.4.24.x86_64;批次大小:1;在 1 个插槽上测量:1;PyTorch 每日构建 0711;英特尔® PyTorch 扩展标签 v2.1.0.dev+cpu.llm;模型:Llama 2 7B 和 Llama 2 13B;数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);波束宽度 4;精度:BF16 和 INT8;英特尔于 2023 年 7 月 12 日进行测试。英特尔至强 Max 9480:英特尔至强 Max 9480 2 插槽系统,112 核/224 线程,Turbo Boost 开启,超线程开启,内存:16x64GB DDR5 4800MT/s;8x16GB HBM2 3200 MT/s,存储:1.8TB;操作系统:CentOS Stream 8;内核:5.19.0-0812.intel_next.1.x86_64+server;批次大小:1;在 1 个插槽上测量;PyTorch nightly build0711;英特尔® PyTorch 扩展 llm_feature_branch;模型:Llama 2 7B 和 Llama 2 13B,数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);波束宽度 4;精度:BF16 和 INT8;英特尔于 2023 年 7 月 12 日进行测试。英特尔数据中心 GPU Max 系列:1 个节点、2 个英特尔至强铂金 8480+、56 个内核、超线程开启、睿频开启、NUMA 2、总内存 1024GB(16x64GB DDR5 4800 MT/s [4800 MT/s])、BIOS SE5C7411.86B.9525.D19.2303151347、微码 0x2b0001b0、1 个以太网控制器 X710(用于 10GBASE-T)、1 个 1.8T WDC WDS200T2B0B、1 个 931.5G 英特尔 SSDPELKX010T8、Ubuntu 22.04.2 LTS、5.15.0-76-generic、4 个英特尔数据中心 GPU Max 1550(仅使用单个 OAM 的单个 Tile 进行测量) GPU 卡)、IFWI PVC 2_1.23166、agama 驱动程序:agama-ci-devel-627.7、英特尔 oneAPI 基础工具包 2023.1、PyTorch 2.0.1 + 英特尔 PyTorch 扩展 v2.0.110+xpu(dev/LLM 分支)、AMC 固件版本:6.5.0.0、型号:Meta AI Llama 2 7B 和 Llama 2 13B、数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);贪婪搜索;精度 FP16;由英特尔于 2023 年 7 月 7 日测试。
迄今为止,美国针对中国商业企业开放高端芯片、阻止军方开放的举措收效甚微。例如,2015 年,奥巴马政府禁止美国芯片制造商英特尔向国防科技大学等中国军方超级计算机研究中心出售高端至强芯片。虽然这项政策终止了美国公司向中国军方的直接销售,但在阻止向帮助中国军方逃避出口管制的空壳公司间接销售方面却完全无效。在限制措施生效后,中国国防科技大学不仅建造了全球领先的新型超级计算机,而且这些新型超级计算机仍然使用最新、最好的(被禁的)英特尔至强芯片。更广泛地说,对中国各类军事装备的检查发现,它们极其依赖美国芯片。
“NHN Cloud 的人工智能即服务采用内置加速器引擎的第四代英特尔至强处理器架构,使我们能够为客户提供多种功能,例如使用英特尔高级矢量扩展 512 实现更快的矢量处理,以及使用英特尔深度学习加速技术以较低精度实现更高的深度学习性能,同时不影响准确性。”