在 CPU 上优化 PyTorch 模型推理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在 CPU 上优化 PyTorch 模型推理

2025年12月8日 12:00 33 Comments

在 Intel Xeon 上像狮子一样飞翔这篇文章在 CPU 上优化 PyTorch 模型推理首先出现在走向数据科学上。

来源:走向数据科学

不断增长，优化其运行时性能的重要性也随之增加。虽然人工智能模型在多大程度上超越人类智能仍然是争论的热点话题，但它们对强大而昂贵的计算资源的需求是毫无疑问的，甚至是臭名昭著的。

在之前的文章中，我们讨论了 AI 模型优化的主题（主要是在模型训练的背景下），并演示了它如何对 AI 模型开发的成本和速度产生决定性影响。在这篇文章中，我们将注意力集中在人工智能模型推理上，其中模型优化还有一个额外目标：最大限度地减少推理请求的延迟并改善模型使用者的用户体验。

以前的帖子

在本文中，我们假设执行模型推理的平台是第四代 Intel® Xeon® 可扩展 CPU 处理器，更具体地说，是运行专用深度学习 Ubuntu (22.04) AMI 和 PyTorch 2.8.0 CPU 版本的 Amazon EC2 c7i.xlarge 实例（具有 4 个 Intel Xeon vCPU）。当然，模型部署平台的选择是设计人工智能解决方案时做出的众多重要决策之一，此外还包括模型架构、开发框架、训练加速器、数据格式、部署策略等的选择——每一项都必须考虑相关成本和运行速度。在专用 AI 推理加速器数量不断增长的时代，选择 CPU 处理器来运行模型推理似乎令人惊讶。然而，正如我们将看到的，在某些情况下，最好的（也是最便宜的）选择很可能只是一个好的老式 CPU。

c7i.xlarge 深度学习 Ubuntu (22.04) AMI PyTorch 2.8.0 集中式 AI 模型推理服务案例英特尔® VTune™ 分析器

为什么选择 CPU？

辅助功能 可用性 减少延迟 加速器使用不足 模型架构 这里

为什么选择英特尔至强？

英特尔® 至强® 可扩展 CPU AVX-512 VNNI 扩展 AMX oneDNN OpenVINO PyTorch 的英特尔扩展许多

以前的增长的至强开发英特尔部署策略选择便宜的昂贵的分析器成本推理计算资源运行延迟重要性决定性处理器人工智能最好的数据格式扩展设计人为什么仍然是集中式 CPU 使用者运行速度训练的 AI 模型注意力加速器可用性