使用 Amazon FSx for Lustre 和 TurboQuant 上的 GPUDirect 加速 LLM 模型加载并增加上下文窗口 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 Amazon FSx for Lustre 和 TurboQuant 上的 GPUDirect 加速 LLM 模型加载并增加上下文窗口

2026年6月1日 16:07 33 Comments

如果您正在 AWS GPU 实例上迭代部署大型语言模型 (LLM)，您可能已经注意到要加载到 GPU 高带宽内存 (HBM) 中的模型越大，GPU 准备好进行推理之前的痛苦等待时间就越长。随着模型增长到数千亿个参数，GPU 环境不断增长 [...]

来源:亚马逊云科技 _机器学习

如果您正在 AWS GPU 实例上迭代部署大型语言模型 (LLM)，您可能已经注意到要加载到 GPU 高带宽内存 (HBM) 中的模型越大，GPU 准备好进行推理之前的痛苦等待时间就越长。随着模型增长到数千亿个参数并且 GPU 环境变得越来越大，模型加载时间会对端到端的第一个令牌总时间 (TTFT) 产生负面影响。这篇文章探讨了 Amazon FSx for Lustre 如何与 NVIDIA GPUDirect Storage (GDS) 相结合，再加上一些巧妙的规划，从根本上改变冷启动 TTFT 方程。每次模型启动时，它将几分钟的非生产性加载时间减少到几秒钟。虽然我们讨论的是优化主题，但这篇文章还将介绍最近发布的 TurboQuant KV 缓存在上下文窗口大小大幅增加方面的影响。

背景：AWS 上的 NVIDIA Blackwell 架构

AWS 最近推出了 Amazon EC2 P6e 和 P6 实例系列，由 NVIDIA 的 Blackwell 架构提供支持（观看公告）。旗舰产品 P6e UltraServer 将 72 个 NVIDIA Blackwell GPU 打包到一个 NVLink 域中，具有 130 TB/s 的二分带宽、13.4 TB 的 HBM3e 和 360 petaflops 的 FP8 计算能力（FP4 为 720 petaflops）。这些 UltraServer 通常用于数万亿参数规模的前沿模型的大规模分布式训练。

在这篇文章中，我们重点关注改进单个 P6 或 P5en 实例的冷启动 TTFT。具体来说，我们将介绍如何尽快将正确格式的模型权重存入 HBM 内存。对于具有多个节点的 UltraCluster，将在集群中的所有节点上并行执行相同的过程。 UltraServer 中的每个节点都独立于共享 FSx for Lustre 文件系统加载模型，利用 FSx for Lustre 可以提供的支持 GDS 的大规模可扩展吞吐量。

模型加载瓶颈

将检查点模型文件从存储读取到 CPU 系统内存

摘要

关于作者

AWS 吞吐量生产性相同的端到端的篇文章模型 Blackwell 注意到并行执行 TTFT 计算能力等待时间节点 Lustre 总时间 GPU 瓶颈 NVIDIA 公告推理 FSx 冷启动加载内存观看发布的加载时间模型的端到端检查点 UltraServer 大规模模型权重分布式节点的