详细内容或原文请订阅后点击阅览
在 CPU 上优化 PyTorch 模型推理
在 Intel Xeon 上像狮子一样飞翔这篇文章在 CPU 上优化 PyTorch 模型推理首先出现在走向数据科学上。
来源:走向数据科学不断增长,优化其运行时性能的重要性也随之增加。虽然人工智能模型在多大程度上超越人类智能仍然是争论的热点话题,但它们对强大而昂贵的计算资源的需求是毫无疑问的,甚至是臭名昭著的。
在之前的文章中,我们讨论了 AI 模型优化的主题(主要是在模型训练的背景下),并演示了它如何对 AI 模型开发的成本和速度产生决定性影响。在这篇文章中,我们将注意力集中在人工智能模型推理上,其中模型优化还有一个额外目标:最大限度地减少推理请求的延迟并改善模型使用者的用户体验。
以前的帖子在本文中,我们假设执行模型推理的平台是第四代 Intel® Xeon® 可扩展 CPU 处理器,更具体地说,是运行专用深度学习 Ubuntu (22.04) AMI 和 PyTorch 2.8.0 CPU 版本的 Amazon EC2 c7i.xlarge 实例(具有 4 个 Intel Xeon vCPU)。当然,模型部署平台的选择是设计人工智能解决方案时做出的众多重要决策之一,此外还包括模型架构、开发框架、训练加速器、数据格式、部署策略等的选择——每一项都必须考虑相关成本和运行速度。在专用 AI 推理加速器数量不断增长的时代,选择 CPU 处理器来运行模型推理似乎令人惊讶。然而,正如我们将看到的,在某些情况下,最好的(也是最便宜的)选择很可能只是一个好的老式 CPU。
c7i.xlarge 深度学习 Ubuntu (22.04) AMI PyTorch 2.8.0 集中式 AI 模型推理服务案例 英特尔® VTune™ 分析器