重新设计软件以适应每个硬件平台具有限制性。开源和与平台无关的软件设计可实现在各种硬件平台上的互操作性,从而创建更灵活的开发者生态系统。
英特尔® TensorFlow 优化 与 Google 合作,TensorFlow 使用英特尔® oneAPI 深度神经网络库 (oneDNN) 的原语直接针对英特尔® 架构 (IA) 进行了优化。通过设置与 CPU 相关的配置 (--config=mkl) 编译的最新 TF 二进制版本已作为工具包的一部分包含在内。
• 英特尔 ® 针对 PyTorch* 的优化:英特尔 ® oneAPI 深度神经网络库 (oneDNN) 包含在 PyTorch 中,作为深度学习的默认数学内核库。 • 英特尔 ® 针对 PyTorch 的扩展:英特尔 ® 针对 PyTorch* 的扩展通过最新特性和优化扩展了 PyTorch* 功能,从而在英特尔硬件上进一步提升性能。 • 英特尔 ® 针对 TensorFlow* 的优化:此版本将 oneDNN 中的基元集成到 TensorFlow 运行时中,以加速性能。 • 英特尔 ® 针对 TensorFlow 的扩展:英特尔 ® 针对 TensorFlow* 的扩展是基于 TensorFlow PluggableDevice 接口的异构高性能深度学习扩展插件。此扩展插件将英特尔 XPU(GPU、CPU 等)设备带入 TensorFlow 开源社区,以加速 AI 工作负载。 • 英特尔 ® 针对 Python* 的分发版:开箱即用,获得更快的 Python 应用程序性能,几乎不需要更改代码。此发行版与英特尔 ® oneAPI 数学核心函数库和英特尔 ® oneAPI 数据分析库等英特尔 ® 性能库集成。 • 英特尔 ® Modin* 发行版(仅通过 Anaconda 提供),您可以使用这个智能的分布式数据框库(其 API 与 pandas 相同)在多节点之间无缝扩展预处理。只有通过使用 Conda* 软件包管理器安装英特尔 ® 人工智能分析工具包才能使用此发行版。 • 英特尔 ® Neural Compressor:在流行的深度学习框架(如 TensorFlow*、PyTorch*、MXNet* 和 ONNX*(开放神经网络交换)运行时)上快速部署低精度推理解决方案。 • 英特尔 ® Scikit-learn* 扩展:使用英特尔 ® oneAPI 数据分析库(oneDAL)无缝加速您的 Scikit-learn 应用程序。
Intel AMX 是内置于最新 Intel Xeon 处理器中的加速器。Intel AMX 提高了深度学习 (DL) 训练和推理的性能,使其成为 NLP、推荐系统和图像识别等工作负载的理想选择。想象一下,一辆汽车可以在城市驾驶中表现出色,并能快速变速,提供一级方程式赛车的性能。最新的 Intel Xeon 处理器提供了这种灵活性。开发人员可以编写 AI 功能以利用 Intel AMX 指令集,也可以编写非 AI 功能以使用处理器指令集架构 (ISA)。英特尔已将其 oneAPI DL 引擎英特尔® oneAPI 深度神经网络库 (oneDNN) 集成到流行的 AI 应用程序开源工具中,包括 TensorFlow、PyTorch、PaddlePaddle 和 ONNX。
在本设计测试中,我们使用 BERT-Large 无大小写(全词掩码)预训练模型作为模型检查点。该模型包含 3.4 亿个参数。我们使用斯坦福问答数据集 (SQuAD) v1.1 数据集进行微调分析。用例要求按照英特尔架构 Model Zoo 在线存储库文档 中所述执行。为了展示使用可扩展端到端企业 AI 堆栈解决方案进行 BERT-Large 微调的性能和可扩展性,我们使用了潜在的英特尔优化,例如针对 oneDNN 优化的 TensorFlow 和用于分布式训练的 Horovod。Horovod 与英特尔® MPI 库 一起部署,进一步利用了英特尔在 MPI 层的优化。我们使用容器映像和一组 MPIJob 规范文件在 Kubeflow 的训练运算符上运行 BERT-Large 工作负载。
• 英特尔的 PyTorch* 优化:英特尔是 PyTorch 最大的贡献者之一,定期为 PyTorch 深度学习框架提供上游优化,从而在英特尔架构上提供卓越的性能。AI 工具选择器包括经过测试的最新二进制版本的 PyTorch,可与其他工具配合使用,以及英特尔 PyTorch 扩展,后者添加了最新的英特尔优化和可用性功能。 • 英特尔的 TensorFlow* 优化:与 Google* 合作,TensorFlow 已直接针对英特尔架构进行了优化,使用英特尔 ® oneAPI 深度神经网络库 (oneDNN) 的原语来最大限度地提高性能。AI 工具选择器提供使用支持 CPU 的设置编译的最新二进制版本,以及英特尔 TensorFlow 扩展,可无缝插入到库存版本以添加对新设备和优化的支持。 • 英特尔 ® 神经压缩器:减小模型大小并加快在 CPU 或 GPU 上部署的推理速度。该开源库提供了独立于框架的 API,用于执行量化、修剪和知识提炼等模型压缩技术。 • 英特尔® Tiber™ AI Studio:英特尔 Tiber AI Studio 是一款全方位服务的机器学习操作系统,可让您从一个地方管理所有 AI 项目。 • 英特尔® Scikit-learn 扩展*:使用英特尔® oneAPI 数据分析库 (oneDAL) 无缝加速您的 Scikit-learn 应用程序。