详细内容或原文请订阅后点击阅览
在 Amazon SageMaker AI 上使用 AWQ 和 GPTQ 通过训练后权重和激活加速 LLM 推理
使用几行代码即可将量化模型无缝部署在 Amazon SageMaker AI 上。在这篇文章中,我们探讨了为什么量化很重要——它如何实现更低成本的推理,支持在资源受限的硬件上的部署,并减少现代法学硕士对财务和环境的影响,同时保留其大部分原始性能。我们还深入研究 PTQ 背后的原理,并演示如何量化您选择的模型并将其部署在 Amazon SageMaker 上。
来源:亚马逊云科技 _机器学习基础模型 (FM) 和大型语言模型 (LLM) 一直在快速扩展,参数数量通常在几个月内翻倍,从而显着提高语言理解和生成能力。这种快速增长伴随着高昂的成本:推理现在需要巨大的内存容量、高性能 GPU 和大量的能源消耗。这种趋势在开源领域很明显。 2023年,TII-UAE发布了当时最大的开放型号Falcon 180B。 Meta 在 2024 年凭借 405B 密集模型 Llama 3.1 超越了这一水平。截至 2025 年中期,最大的公开可用模型是 DeepSeek(V3 – 指令变体,R1 – 推理变体),它是专家 (MoE) 架构的混合体,总参数为 6710 亿个,其中每个代币有 370 亿个活跃参数。这些模型在各种任务中提供最先进的性能,包括多模式搜索、代码生成、摘要、想法生成、逻辑推理,甚至博士级别的问题解决。尽管它们很有价值,但由于其规模、成本和基础设施要求,在实际应用中部署此类模型仍然基本上不切实际。
步骤是:
为了说明此工作流程并帮助可视化该过程,我们提供了以下流程图。
先决条件
要运行示例笔记本,您需要一个具有 AWS Identity and Access Management (IAM) 角色的 AWS 账户,该角色具有管理所创建资源的权限。有关更多信息,请参阅创建 AWS 账户。
如果这是您第一次使用 Amazon SageMaker Studio,您首先需要创建一个 SageMaker 域。
