使用NVIDIA Dynamo和Amazon EKS加速生成AI推断

这篇文章介绍了Nvidia Dynamo,并解释了如何在Amazon EKS上设置它以进行自动缩放和简化Kubernetes操作。我们提供了动手演练,该演练使用AWS Labs在EKS GitHub Repo上的AI上使用NVIDIA Dynamo蓝图来提供基础架构,配置监视并安装NVIDIA DYNAMO操作员。

来源:亚马逊云科技 _机器学习
这篇文章与Kshitiz Gupta,Wenhan Tan,Arun Raman,Jiahong Liu和Nvidia的Eiluth Triana Isaza共同撰写。作为大型语言模型(LLMS)和生成AI应用程序变得越来越普遍,对高效,可扩展,可扩展性,低层和低标准的解决方案的需求越来越普遍。传统的推理系统通常很难满足这些需求,尤其是在分布式的多节点环境中。 Nvidia Dynamo(与Amazon DynamoDB无关)是一个开源推理框架,旨在应对这些挑战,提供创新的解决方案以优化性能和可伸缩性。 It supports AWS services such as Amazon Simple Storage Service (Amazon S3), Elastic Fabric Adapter (EFA), and Amazon Elastic Kubernetes Service (Amazon EKS), and can be deployed on NVIDIA GPU-accelerated Amazon Elastic Compute Cloud (Amazon EC2) instances, including P6 instances accelerated by NVIDIA Blackwell.This post introduces NVIDIA Dynamo and explains如何在Amazon EKS上设置它以进行自动缩放和简化Kubernetes操作。 We provide a hands-on walkthrough, which uses the NVIDIA Dynamo blueprint on the AI on EKS GitHub repo by AWS Labs to provision the infrastructure, configure monitoring, and install the NVIDIA Dynamo operator.NVIDIA Dynamo: A low-latency distributed inference frameworkDesigned to be inference-engine agnostic, NVIDIA Dynamo supports TRT-LLM, vllm,sglang和其他运行时间。它通过拆卸预填充和解码阶段来提高LLM性能,以最大程度地提高GPU吞吐量,动态安排GPU资源,路由请求,以避免KV缓存重新计算,加速数据传输,使用低延迟NIXL库来加速数据传输,并有效地跨内存层次供应范围,并在跨越的整体系统中脱离了跨度的KACE,并在整体上选择了一个启动型号。推理组件,前端API服务器和适合其独特需求的推理数据传输库,FAC