详细内容或原文请订阅后点击阅览
使用 Amazon FSx for Lustre 和 TurboQuant 上的 GPUDirect 加速 LLM 模型加载并增加上下文窗口
如果您正在 AWS GPU 实例上迭代部署大型语言模型 (LLM),您可能已经注意到要加载到 GPU 高带宽内存 (HBM) 中的模型越大,GPU 准备好进行推理之前的痛苦等待时间就越长。随着模型增长到数千亿个参数,GPU 环境不断增长 [...]
来源:亚马逊云科技 _机器学习如果您正在 AWS GPU 实例上迭代部署大型语言模型 (LLM),您可能已经注意到要加载到 GPU 高带宽内存 (HBM) 中的模型越大,GPU 准备好进行推理之前的痛苦等待时间就越长。随着模型增长到数千亿个参数并且 GPU 环境变得越来越大,模型加载时间会对端到端的第一个令牌总时间 (TTFT) 产生负面影响。这篇文章探讨了 Amazon FSx for Lustre 如何与 NVIDIA GPUDirect Storage (GDS) 相结合,再加上一些巧妙的规划,从根本上改变冷启动 TTFT 方程。每次模型启动时,它将几分钟的非生产性加载时间减少到几秒钟。虽然我们讨论的是优化主题,但这篇文章还将介绍最近发布的 TurboQuant KV 缓存在上下文窗口大小大幅增加方面的影响。
背景:AWS 上的 NVIDIA Blackwell 架构
AWS 最近推出了 Amazon EC2 P6e 和 P6 实例系列,由 NVIDIA 的 Blackwell 架构提供支持(观看公告)。旗舰产品 P6e UltraServer 将 72 个 NVIDIA Blackwell GPU 打包到一个 NVLink 域中,具有 130 TB/s 的二分带宽、13.4 TB 的 HBM3e 和 360 petaflops 的 FP8 计算能力(FP4 为 720 petaflops)。这些 UltraServer 通常用于数万亿参数规模的前沿模型的大规模分布式训练。
在这篇文章中,我们重点关注改进单个 P6 或 P5en 实例的冷启动 TTFT。具体来说,我们将介绍如何尽快将正确格式的模型权重存入 HBM 内存。对于具有多个节点的 UltraCluster,将在集群中的所有节点上并行执行相同的过程。 UltraServer 中的每个节点都独立于共享 FSx for Lustre 文件系统加载模型,利用 FSx for Lustre 可以提供的支持 GDS 的大规模可扩展吞吐量。
