详细内容或原文请订阅后点击阅览
NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上提供
在 Amazon SageMaker JumpStart 上部署 NVIDIA Nemotron 3 Ultra。借助此前沿推理模型,代理 AI 工作负载的推理速度提高 5 倍,成本降低 30%。
来源:亚马逊云科技 _机器学习今天,我们很高兴地宣布 NVIDIA Nemotron 3 Ultra 在 Amazon SageMaker JumpStart 上零日可用。
通过此次发布,您现在可以使用一键部署体验来部署 Nemotron 3 Ultra 模型。 Nemotron 3 Ultra 是一种开放模型,专为长期运行的自主代理中的前沿推理和编排而构建,可将推理速度提高 5 倍,并将代理工作负载的成本降低高达 30%。 Nemotron 3 Ultra 针对 NVFP4 格式进行了优化,这使得模型的托管速度更快且更具成本效益。
NVIDIA Nemotron 3 Ultra 概述
NVIDIA Nemotron 3 Ultra 是一个开放的大型语言模型,拥有 5500 亿个总参数和 550 亿个活动参数。它建立在混合 Transformer-Mamba Mixture-of-Experts (MoE) 架构之上,旨在以同等质量的密集模型的一小部分计算成本提供前沿智能。
为什么代理人工智能需要专门构建的模型
客服人员不会只回答一次。他们计划、调用工具、将工作委派给子代理、检查结果,并持续进行数百轮。每一步都会增加令牌和计算,因此重要的指标是以有用的准确性、完成时间和每项任务的成本来完成任务。
Nemotron 3 Ultra 直接解决了这个问题。其 MoE 架构每次前向传递仅激活 550B 参数中的 55B,即使在百万个令牌上下文长度下也能保持高吞吐量。这意味着代理可以维持跨越数百个回合的规划、工具调用和自我校正循环,同时帮助保持一致性和管理成本。
企业用例
Nemotron 3 Ultra 在需要持续多步推理的工作负载中表现出色:
