使用 G7e 实例加速 Amazon SageMaker AI 上的生成式 AI 推理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 G7e 实例加速 Amazon SageMaker AI 上的生成式 AI 推理

2026年4月20日 19:38 33 Comments

今天，我们很高兴地宣布在 Amazon SageMaker AI 上推出由 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 提供支持的 G7e 实例。您可以为节点配置 1、2、4 和 8 个 RTX PRO 6000 GPU 实例，每个 GPU 提供 96 GB GDDR7 内存。此次发布提供了使用单节点 GPU、G7e.2xlarge 实例来托管强大的开源基础模型 (FM)（例如 GPT-OSS-120B、Nemotron-3-Super-120B-A12B（NVFP4 变体）和 Qwen3.5-35B-A3B）的功能，为组织提供了经济高效且高性能的选择。

来源:亚马逊云科技 _机器学习

随着生成式人工智能的需求不断增长，开发者和企业寻求更灵活、更具成本效益、更强大的加速器来满足他们的需求。今天，我们很高兴地宣布在 Amazon SageMaker AI 上推出由 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 提供支持的 G7e 实例。

您可以为节点配置 1、2、4 和 8 个 RTX PRO 6000 GPU 实例，每个 GPU 提供 96 GB GDDR7 内存。此次发布提供了使用单节点 GPU、G7e.2xlarge 实例来托管强大的开源基础模型 (FM)（例如 GPT-OSS-120B、Nemotron-3-Super-120B-A12B（NVFP4 变体）和 Qwen3.5-35B-A3B）的功能，为组织提供了经济高效且高性能的选择。这使得它非常适合那些希望在保持推理工作负载高性能的同时降低成本的人。 G7e 实例的主要亮点包括：

GPU 内存是 G6e 实例的两倍，支持在 FP16 中部署大型语言模型 (LLM)，最高可达：

单GPU节点上的35B参数模型（G7e.2xlarge）

4 GPU 节点上的 150B 参数模型 (G7e.24xlarge)

8 GPU 节点上的 300B 参数模型 (G7e.48xlarge)

高达 1600 Gbps 的网络吞吐量

G7e.48xlarge 上高达 768 GB GPU 内存

Amazon Elastic Compute Cloud (Amazon EC2) G7e 实例代表了云上 GPU 加速推理的重大飞跃。与上一代 G6e 实例相比，它们的推理性能高达 2.3 倍。每个 G7e GPU 提供 1,597 GB/s 带宽，是 G6e 的每 GPU 内存的两倍，是 G5 的四倍。通过 EFA 在最大的 G7e 尺寸上将网络扩展至 1,600 Gbps（比 G6e 快 4 倍，比 G5 快 16 倍），从而解锁低延迟多节点推理和微调场景，而这在以前在 G 系列实例上是不切实际的。下表总结了 8-GPU 层的代际进展：

非常适合 G7e 的用例

部署演练

先决条件

部署

性能基准

数字告诉我们什么

定价

节点配置参数模型部署性服务器实际的吞吐量高性能的两倍开发者人工智能 G6e 提供性能需求强大的节点部署基准数 xlarge GPU 最大的实例推理成本效益 G7e 内存增长工作负载先决条件 GB 低成本的加速器低成本高性能 Amazon 网络支持的