在 AWS Graviton 上优化 PyTorch 模型推理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在 AWS Graviton 上优化 PyTorch 模型推理

2025年12月10日 12:00 33 Comments

在 CPU 上加速 AI/ML 的技巧 — 第 2 部分优化 AWS Graviton 上的 PyTorch 模型推理一文首先出现在 Towards Data Science 上。

来源:走向数据科学

AI/ML 模型可能是一项极其昂贵的工作。我们的许多帖子都专注于分析和优化 AI/ML 工作负载运行时性能的各种提示、技巧和技术。我们的论点有两个：

性能分析和优化必须是每个 AI/ML 开发项目不可或缺的过程，并且，

实现有意义的性能提升和成本降低并不需要高度专业化。任何 AI/ML 开发人员都可以做到。每个 AI/ML 开发人员都应该这样做。

，我们解决了在英特尔® 至强® 处理器上优化机器学习推理工作负载的挑战。我们首先回顾了许多场景，在这些场景中，即使在多个专用 AI 推理芯片的时代，CPU 也可能是 AI/ML 推理的最佳选择。然后，我们介绍了一个玩具图像分类 PyTorch 模型，并继续演示了在由第四代 Intel Xeon 可扩展处理器提供支持的 Amazon EC2 c7i.xlarge 实例上提升其运行时性能的多种技术。在这篇文章中，我们将讨论范围扩展到 AWS 自主研发的基于 Arm 的 Graviton CPU。我们将重新审视我们在之前的文章中讨论的许多优化（其中一些需要适应 Arm 处理器），并评估它们对同一玩具模型的影响。鉴于 Arm 和 Intel 处理器之间的巨大差异，获得最佳性能配置的路径可能会采取不同的路径。

AWS Graviton

AWS Graviton 是基于 Arm Neoverse CPU 的处理器系列，由 AWS 定制设计和构建，以实现最佳性价比和能效。它们用于矢量处理（NEON 和 SVE/SVE2）和矩阵乘法 (MMLA) 的专用引擎，以及对 Bfloat16 运算（从 Graviton3 开始）的支持，使它们成为运行 AI/ML 推理等计算密集型工作负载的有力候选者。为了促进 Graviton 上的高性能 AI/ML，整个软件堆栈已针对其使用进行了优化：

免责声明

性能分析处理器 ML 实现玩具矩阵乘法开发人员矢量处理优化模型的机器学习 Arm CPU 支持的昂贵的 AWS 图像分类工作负载技术推理运行高性能可能 Graviton 性能提升性能负载的成本降低 AI 专业化不同的