Managed Tiered KV Cache and Intelligent Routing for Amazon SageMaker HyperPod
在这篇文章中,我们介绍了 Amazon SageMaker HyperPod 的托管分层 KV 缓存和智能路由,这些新功能可以将长上下文提示和多轮对话的首次令牌时间缩短高达 40%,并将计算成本降低高达 25%。这些功能可自动管理分布式 KV 缓存基础设施和智能请求路由,从而更轻松地部署具有企业级性能的生产规模 LLM 推理工作负载,同时显着降低运营开销。
HyperPod now supports Multi-Instance GPU to maximize GPU utilization for generative AI tasks
在这篇文章中,我们将探讨 Amazon SageMaker HyperPod 现在如何支持 NVIDIA 多实例 GPU (MIG) 技术,使您能够将强大的 GPU 划分为多个独立的实例,以运行并发工作负载,例如推理、研究和交互式开发。通过最大限度地提高 GPU 利用率并减少资源浪费,MIG 可以帮助组织优化成本,同时在不同的机器学习任务中保持性能隔离和可预测的服务质量。
Power up your ML workflows with interactive IDEs on SageMaker HyperPod
采用 Amazon Elastic Kubernetes Service (EKS) 编排的 Amazon SageMaker HyperPod 集群现在支持创建和管理交互式开发环境,例如 JupyterLab 和开源 Visual Studio Code,通过为数据科学家提供熟悉工具的托管环境来简化 ML 开发生命周期。这篇文章展示了 HyperPod 管理员如何为其集群配置空间,以及数据科学家如何创建和连接到这些空间。
HyperPod enhances ML infrastructure with security and storage
本博文介绍了 Amazon SageMaker HyperPod 的两项主要增强功能,这些增强功能增强了大规模机器学习基础设施的安全性和存储功能。新功能包括客户管理密钥 (CMK) 支持使用组织控制的加密密钥对 EBS 卷进行加密,以及 Amazon EBS CSI 驱动程序集成,支持对 AI 工作负载中的 Kubernetes 卷进行动态存储管理。