详细内容或原文请订阅后点击阅览
在 AWS Graviton 上优化 PyTorch 模型推理
在 CPU 上加速 AI/ML 的技巧 — 第 2 部分优化 AWS Graviton 上的 PyTorch 模型推理一文首先出现在 Towards Data Science 上。
来源:走向数据科学AI/ML 模型可能是一项极其昂贵的工作。我们的许多帖子都专注于分析和优化 AI/ML 工作负载运行时性能的各种提示、技巧和技术。我们的论点有两个:
,我们解决了在英特尔® 至强® 处理器上优化机器学习推理工作负载的挑战。我们首先回顾了许多场景,在这些场景中,即使在多个专用 AI 推理芯片的时代,CPU 也可能是 AI/ML 推理的最佳选择。然后,我们介绍了一个玩具图像分类 PyTorch 模型,并继续演示了在由第四代 Intel Xeon 可扩展处理器提供支持的 Amazon EC2 c7i.xlarge 实例上提升其运行时性能的多种技术。在这篇文章中,我们将讨论范围扩展到 AWS 自主研发的基于 Arm 的 Graviton CPU。我们将重新审视我们在之前的文章中讨论的许多优化(其中一些需要适应 Arm 处理器),并评估它们对同一玩具模型的影响。鉴于 Arm 和 Intel 处理器之间的巨大差异,获得最佳性能配置的路径可能会采取不同的路径。
AWS Graviton
AWS Graviton 是基于 Arm Neoverse CPU 的处理器系列,由 AWS 定制设计和构建,以实现最佳性价比和能效。它们用于矢量处理(NEON 和 SVE/SVE2)和矩阵乘法 (MMLA) 的专用引擎,以及对 Bfloat16 运算(从 Graviton3 开始)的支持,使它们成为运行 AI/ML 推理等计算密集型工作负载的有力候选者。为了促进 Graviton 上的高性能 AI/ML,整个软件堆栈已针对其使用进行了优化:
