Clarifai Reasoning Engine 上的 NVIDIA Nemotron 3 Nano Omni：每秒 400 个令牌的零日支持 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Clarifai Reasoning Engine 上的 NVIDIA Nemotron 3 Nano Omni：每秒 400 个令牌的零日支持

2026年4月28日 15:50 33 Comments

对 Gemma-3-4B、MiniCPM-o 2.6 和 Qwen2.5-VL-7B-Instruct 的延迟、吞吐量和可扩展性进行基准测试。

来源:Clarifai博客 | 实际应用中的人工智能

我们很高兴地宣布 Clarifai 上对 NVIDIA Nemotron 3 Nano Omni 的第 0 天支持。 Nano Omni 现已在 Clarifai Reasoning Engine 上推出，为构建代理系统的开发人员带来了快速多模式推理，每秒提供 400 多个令牌的吞吐量。

NVIDIA Nemotron 3 Nano Omni 是一款 30B A3B 多模态推理模型，专为涵盖文档、图像、视频和音频的工作负载而构建。凭借 256K 上下文窗口以及对文本、图像、视频和音频输入以及文本输出的支持，它为开发人员提供了一个单一模型，用于在代理工作流程中处理丰富的多模式上下文。

这使得它非常适合多模式理解和速度需要结合的工作流程中的子代理。

随着代理系统变得更加强大，它们也变得更加专业。不同的模型和组件负责规划、执行、检索和验证，每个模型和组件都在更广泛的工作流程中运行。在该架构中，处理多模式输入的模型必须做的不仅仅是处理孤立的输入。它必须同时解释多种模式，保留跨步骤的上下文，并足够快地响应以保持在操作循环内。

作为子代理的轻量级多模态模型，Nemotron 3 Nano Omni 可以跨屏幕、文档、图表、音频和视频进行推理，而无需通过单独的堆栈路由每个模态。它不是将视觉、语音和语言分割到多个模型中，而是为开发人员提供了一种更统一的方式来处理多模态推理，同时使整个系统更易于管理。

Nano Omni 尤其适用于正在成为企业代理系统核心的工作负载类型。

这些都是多模式功能必须在生产中可靠运行的情况，模型可以有效地处理多种模式，而无需将工作流程拆分到不同的模型上。

吞吐量处理经济学计算机不同的模型代理的统一的结合的输入 Nemotron Nano 视频运行的核心的操作循环系统的单独的流程响应 Omni 推理丰富的输出的开发人员无需代理工作负载可靠运行多模式文档输入的广泛的音频输入音频的模态工作