详细内容或原文请订阅后点击阅览
使用 G7e 实例加速 Amazon SageMaker AI 上的生成式 AI 推理
今天,我们很高兴地宣布在 Amazon SageMaker AI 上推出由 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 提供支持的 G7e 实例。您可以为节点配置 1、2、4 和 8 个 RTX PRO 6000 GPU 实例,每个 GPU 提供 96 GB GDDR7 内存。此次发布提供了使用单节点 GPU、G7e.2xlarge 实例来托管强大的开源基础模型 (FM)(例如 GPT-OSS-120B、Nemotron-3-Super-120B-A12B(NVFP4 变体)和 Qwen3.5-35B-A3B)的功能,为组织提供了经济高效且高性能的选择。
来源:亚马逊云科技 _机器学习随着生成式人工智能的需求不断增长,开发者和企业寻求更灵活、更具成本效益、更强大的加速器来满足他们的需求。今天,我们很高兴地宣布在 Amazon SageMaker AI 上推出由 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 提供支持的 G7e 实例。
您可以为节点配置 1、2、4 和 8 个 RTX PRO 6000 GPU 实例,每个 GPU 提供 96 GB GDDR7 内存。此次发布提供了使用单节点 GPU、G7e.2xlarge 实例来托管强大的开源基础模型 (FM)(例如 GPT-OSS-120B、Nemotron-3-Super-120B-A12B(NVFP4 变体)和 Qwen3.5-35B-A3B)的功能,为组织提供了经济高效且高性能的选择。这使得它非常适合那些希望在保持推理工作负载高性能的同时降低成本的人。 G7e 实例的主要亮点包括:
Amazon Elastic Compute Cloud (Amazon EC2) G7e 实例代表了云上 GPU 加速推理的重大飞跃。与上一代 G6e 实例相比,它们的推理性能高达 2.3 倍。每个 G7e GPU 提供 1,597 GB/s 带宽,是 G6e 的每 GPU 内存的两倍,是 G5 的四倍。通过 EFA 在最大的 G7e 尺寸上将网络扩展至 1,600 Gbps(比 G6e 快 4 倍,比 G5 快 16 倍),从而解锁低延迟多节点推理和微调场景,而这在以前在 G 系列实例上是不切实际的。下表总结了 8-GPU 层的代际进展:
非常适合 G7e 的用例
部署演练
先决条件
部署
性能基准
数字告诉我们什么
