NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上提供 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上提供

2026年6月4日 16:59 33 Comments

在 Amazon SageMaker JumpStart 上部署 NVIDIA Nemotron 3 Ultra。借助此前沿推理模型，代理 AI 工作负载的推理速度提高 5 倍，成本降低 30%。

来源:亚马逊云科技 _机器学习

今天，我们很高兴地宣布 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上零日可用。

通过此次发布，您现在可以使用一键部署体验来部署 Nemotron 3 Ultra 模型。 Nemotron 3 Ultra 是一种开放模型，专为长期运行的自主代理中的前沿推理和编排而构建，可将推理速度提高 5 倍，并将代理工作负载的成本降低高达 30%。 Nemotron 3 Ultra 针对 NVFP4 格式进行了优化，这使得模型的托管速度更快且更具成本效益。

NVIDIA Nemotron 3 Ultra 概述

NVIDIA Nemotron 3 Ultra 是一个开放的大型语言模型，拥有 5500 亿个总参数和 550 亿个活动参数。它建立在混合 Transformer-Mamba Mixture-of-Experts (MoE) 架构之上，旨在以同等质量的密集模型的一小部分计算成本提供前沿智能。

为什么代理人工智能需要专门构建的模型

客服人员不会只回答一次。他们计划、调用工具、将工作委派给子代理、检查结果，并持续进行数百轮。每一步都会增加令牌和计算，因此重要的指标是以有用的准确性、完成时间和每项任务的成本来完成任务。

Nemotron 3 Ultra 直接解决了这个问题。其 MoE 架构每次前向传递仅激活 550B 参数中的 55B，即使在百万个令牌上下文长度下也能保持高吞吐量。这意味着代理可以维持跨越数百个回合的规划、工具调用和自我校正循环，同时帮助保持一致性和管理成本。

企业用例

Nemotron 3 Ultra 在需要持续多步推理的工作负载中表现出色：

代理协调器 - 协调多个子代理，跨长工具调用链管理状态

编码代理 – 跨大型存储库生成、测试、调试和迭代代码

深入研究 - 综合多个来源的信息，在扩展的上下文中保持连贯的推理

SageMaker JumpStart 入门

先决条件

清理

吞吐量人工智能代理人提高模型质量保持协调器意味着 Nemotron 运行的 Ultra 一致性管理完成时间部署建立有用的负载的成本降低构建 NVIDIA 推理重要的质量的为什么成本效益开放的调用工具 JumpStart 扩展的工作负载先决条件代理模型的完成任务准确性等质量 SageMaker 计算成本连贯的