详细内容或原文请订阅后点击阅览
Amazon SageMaker Inference 现在支持 G6e 实例
SageMaker 上的 G6e 实例解锁了以经济高效的方式部署各种开源模型的能力。凭借卓越的内存容量、增强的性能和成本效益,这些实例为希望部署和扩展其 AI 应用程序的组织提供了极具吸引力的解决方案。处理更大模型、支持更长上下文长度和保持高吞吐量的能力使 G6e 实例对于现代 AI 应用程序特别有价值。
来源:亚马逊云科技 _机器学习随着对生成式 AI 的需求不断增长,开发人员和企业寻求更灵活、更具成本效益且功能强大的加速器来满足他们的需求。今天,我们很高兴地宣布在 Amazon SageMaker 上推出由 NVIDIA L40S Tensor Core GPU 提供支持的 G6e 实例。您可以选择为节点配置 1、4 和 8 个 L40S GPU 实例,每个 GPU 提供 48 GB 的高带宽内存 (HBM)。此次发布使组织能够使用单节点 GPU 实例 G6e.xlarge 来托管强大的开源基础模型,例如 Llama 3.2 11 B Vision、Llama 2 13 B 和 Qwen 2.5 14B,为组织提供一种经济高效且性能卓越的选择。这使其成为那些希望优化成本同时保持推理工作负载高性能的用户的完美选择。
Amazon SageMakerG6e 实例的主要亮点包括:
- 与 G5 和 G6 实例相比,GPU 内存增加了一倍,支持在 FP16 中部署大型语言模型,最高可达: 单个 GPU 节点上的 14B 参数模型 (G6e.xlarge)4 GPU 节点上的 72B 参数模型 (G6e.12xlarge)8 GPU 节点上的 90B 参数模型 (G6e.48xlarge) 高达 400 Gbps 的网络吞吐量高达 384 GB 的 GPU 内存
- 单个 GPU 节点上的 14B 参数模型 (G6e.xlarge)4 GPU 节点上的 72B 参数模型 (G6e.12xlarge)8 GPU 节点上的 90B 参数模型 (G6e.48xlarge)
用例
- 聊天机器人和对话式 AI文本生成和摘要图像生成和视觉模型