• 英特尔 ® 针对 PyTorch* 的优化:英特尔 ® oneAPI 深度神经网络库 (oneDNN) 包含在 PyTorch 中,作为深度学习的默认数学内核库。 • 英特尔 ® 针对 PyTorch 的扩展:英特尔 ® 针对 PyTorch* 的扩展通过最新特性和优化扩展了 PyTorch* 功能,从而在英特尔硬件上进一步提升性能。 • 英特尔 ® 针对 TensorFlow* 的优化:此版本将 oneDNN 中的基元集成到 TensorFlow 运行时中,以加速性能。 • 英特尔 ® 针对 TensorFlow 的扩展:英特尔 ® 针对 TensorFlow* 的扩展是基于 TensorFlow PluggableDevice 接口的异构高性能深度学习扩展插件。此扩展插件将英特尔 XPU(GPU、CPU 等)设备带入 TensorFlow 开源社区,以加速 AI 工作负载。 • 英特尔 ® 针对 Python* 的分发版:开箱即用,获得更快的 Python 应用程序性能,几乎不需要更改代码。此发行版与英特尔 ® oneAPI 数学核心函数库和英特尔 ® oneAPI 数据分析库等英特尔 ® 性能库集成。 • 英特尔 ® Modin* 发行版(仅通过 Anaconda 提供),您可以使用这个智能的分布式数据框库(其 API 与 pandas 相同)在多节点之间无缝扩展预处理。只有通过使用 Conda* 软件包管理器安装英特尔 ® 人工智能分析工具包才能使用此发行版。 • 英特尔 ® Neural Compressor:在流行的深度学习框架(如 TensorFlow*、PyTorch*、MXNet* 和 ONNX*(开放神经网络交换)运行时)上快速部署低精度推理解决方案。 • 英特尔 ® Scikit-learn* 扩展:使用英特尔 ® oneAPI 数据分析库(oneDAL)无缝加速您的 Scikit-learn 应用程序。
Intel AMX 是内置于最新 Intel Xeon 处理器中的加速器。Intel AMX 提高了深度学习 (DL) 训练和推理的性能,使其成为 NLP、推荐系统和图像识别等工作负载的理想选择。想象一下,一辆汽车可以在城市驾驶中表现出色,并能快速变速,提供一级方程式赛车的性能。最新的 Intel Xeon 处理器提供了这种灵活性。开发人员可以编写 AI 功能以利用 Intel AMX 指令集,也可以编写非 AI 功能以使用处理器指令集架构 (ISA)。英特尔已将其 oneAPI DL 引擎英特尔® oneAPI 深度神经网络库 (oneDNN) 集成到流行的 AI 应用程序开源工具中,包括 TensorFlow、PyTorch、PaddlePaddle 和 ONNX。
英特尔® TensorFlow 优化 与 Google 合作,TensorFlow 使用英特尔® oneAPI 深度神经网络库 (oneDNN) 的原语直接针对英特尔® 架构 (IA) 进行了优化。通过设置与 CPU 相关的配置 (--config=mkl) 编译的最新 TF 二进制版本已作为工具包的一部分包含在内。
• 英特尔的 PyTorch* 优化:英特尔是 PyTorch 最大的贡献者之一,定期为 PyTorch 深度学习框架提供上游优化,从而在英特尔架构上提供卓越的性能。AI 工具选择器包括经过测试的最新二进制版本的 PyTorch,可与其他工具配合使用,以及英特尔 PyTorch 扩展,后者添加了最新的英特尔优化和可用性功能。 • 英特尔的 TensorFlow* 优化:与 Google* 合作,TensorFlow 已直接针对英特尔架构进行了优化,使用英特尔 ® oneAPI 深度神经网络库 (oneDNN) 的原语来最大限度地提高性能。AI 工具选择器提供使用支持 CPU 的设置编译的最新二进制版本,以及英特尔 TensorFlow 扩展,可无缝插入到库存版本以添加对新设备和优化的支持。 • 英特尔 ® 神经压缩器:减小模型大小并加快在 CPU 或 GPU 上部署的推理速度。该开源库提供了独立于框架的 API,用于执行量化、修剪和知识提炼等模型压缩技术。 • 英特尔® Tiber™ AI Studio:英特尔 Tiber AI Studio 是一款全方位服务的机器学习操作系统,可让您从一个地方管理所有 AI 项目。 • 英特尔® Scikit-learn 扩展*:使用英特尔® oneAPI 数据分析库 (oneDAL) 无缝加速您的 Scikit-learn 应用程序。
Altera 和英特尔合作伙伴联盟 (IPA) 合作伙伴提供支持 Open FPGA Stack (OFS) 的平台,用于开发和部署。这些基于 Stratix® 10 和 Agilex™ FPGA 的平台使您能够更快地构建基于 OFS 的软件和应用程序,而无需大量硬件开发或专业知识。许多相同的平台还支持 oneAPI,为应用程序开发提供了更大的灵活性。本季度更新目录旨在列出所有当前可用的平台。您可以在 market.intel.com 上找到有关这些平台的更多详细信息和资料以及联系 IPA 合作伙伴的信息。
12 Habana Gaudi2 深度学习加速器:所有测量均使用 Habana SynapseAI 版本 1.10 和 optimum-habana 版本 1.6 在 HLS2 Gaudi2 服务器上进行,该服务器具有八个 Habana Gaudi2 HL-225H 夹层卡和两个 Intel Xeon Platinum 8380 CPU @ 2.30GHz 和 1TB 系统内存。性能测量于 2023 年 7 月进行。第四代英特尔至强 8480:英特尔第四代至强铂金 8480+ 2 插槽系统,112 核/224 线程,Turbo Boost 开启,超线程开启,内存:16x32GB DDR5 4800MT/s,存储:953.9GB);操作系统:CentOS Stream 8;内核:5.15.0-spr.bkc.pc.16.4.24.x86_64;批次大小:1;在 1 个插槽上测量:1;PyTorch 每日构建 0711;英特尔® PyTorch 扩展标签 v2.1.0.dev+cpu.llm;模型:Llama 2 7B 和 Llama 2 13B;数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);波束宽度 4;精度:BF16 和 INT8;英特尔于 2023 年 7 月 12 日进行测试。英特尔至强 Max 9480:英特尔至强 Max 9480 2 插槽系统,112 核/224 线程,Turbo Boost 开启,超线程开启,内存:16x64GB DDR5 4800MT/s;8x16GB HBM2 3200 MT/s,存储:1.8TB;操作系统:CentOS Stream 8;内核:5.19.0-0812.intel_next.1.x86_64+server;批次大小:1;在 1 个插槽上测量;PyTorch nightly build0711;英特尔® PyTorch 扩展 llm_feature_branch;模型:Llama 2 7B 和 Llama 2 13B,数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);波束宽度 4;精度:BF16 和 INT8;英特尔于 2023 年 7 月 12 日进行测试。英特尔数据中心 GPU Max 系列:1 个节点、2 个英特尔至强铂金 8480+、56 个内核、超线程开启、睿频开启、NUMA 2、总内存 1024GB(16x64GB DDR5 4800 MT/s [4800 MT/s])、BIOS SE5C7411.86B.9525.D19.2303151347、微码 0x2b0001b0、1 个以太网控制器 X710(用于 10GBASE-T)、1 个 1.8T WDC WDS200T2B0B、1 个 931.5G 英特尔 SSDPELKX010T8、Ubuntu 22.04.2 LTS、5.15.0-76-generic、4 个英特尔数据中心 GPU Max 1550(仅使用单个 OAM 的单个 Tile 进行测量) GPU 卡)、IFWI PVC 2_1.23166、agama 驱动程序:agama-ci-devel-627.7、英特尔 oneAPI 基础工具包 2023.1、PyTorch 2.0.1 + 英特尔 PyTorch 扩展 v2.0.110+xpu(dev/LLM 分支)、AMC 固件版本:6.5.0.0、型号:Meta AI Llama 2 7B 和 Llama 2 13B、数据集 LAMBADA;令牌长度:32/128/1024/2016(输入)、32(输出);贪婪搜索;精度 FP16;由英特尔于 2023 年 7 月 7 日测试。