Clarifai 推理引擎在 Kimi K2.5 上实现每秒 414 个令牌 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Clarifai 推理引擎在 Kimi K2.5 上实现每秒 414 个令牌

2026年3月16日 18:55 33 Comments

Clarifai 在 Kimi K2.5 上实现了每秒 414 个令牌，是首批在 Nvidia B200 GPU 上运行的万亿参数推理模型上达到 400+ TPS 的提供商之一。

来源:Clarifai博客 | 实际应用中的人工智能

TL;DR

使用定制 CUDA 内核和针对推理工作负载进行优化的推测解码，我们在 Nvidia B200 GPU 上运行的 Kimi K2.5 上实现了每秒 414 个令牌的吞吐量，使我们成为首批在万亿参数推理模型上达到每秒 400 个以上令牌的提供商之一。

在 Nvidia GTC 之前，我们很高兴与大家分享，Clarifai Reasoning Engine 在 Kimi K2.5 上实现了每秒 414 个令牌 (TPS) 的吞吐量，使我们跻身于人工分析衡量的前沿推理模型的顶级推理提供商之列。我们的平台在 Nvidia B200 GPU 基础设施上运行，为代理工作流程和复杂推理任务提供生产级性能。

图 1：Clarifai 在 Kimi K2.5 上每秒实现 414 个令牌，在人工分析基准上排名最快的推理提供商之一。

为什么 Kimi K2.5 性能很重要

Kimi K2.5 是一个 1 万亿参数推理模型，具有 384 名专家的 Mixture-of-Experts 架构，每个请求激活 320 亿个参数。该模型由 Moonshot AI 构建，对 15 万亿混合视觉和文本标记进行了本机多模式训练，在关键基准测试中提供了强大的性能：50.2% HLE 使用工具、76.8% SWE-Bench Verified 和 78.4% BrowseComp。

作为推理模型，Kimi K2.5 在最终答案之前生成扩展的思维序列。 Clarifai 的首次回答时间为 6 秒，其中包括模型在提供响应之前的内部思考时间。吞吐量直接影响代理系统、代码生成和多模式推理任务的端到端响应时间。我们以 414 TPS 提供生产部署所需的速度。

图 2：跨推理提供程序的首次应答令牌时间 (TTFT) 性能，通过人工分析使用 10,000 个输入令牌进行测量。

我们如何优化吞吐量

Clarifai Reasoning Engine 针对大型推理模型采用了三大核心优化：

与 Kimi K2.5 一起构建

吞吐量所需的 Kimi 令牌扩展的多模式输入代理基础设施每秒推理模型强大的为什么提供参数 414 进行模型的优化分析工作负载 Nvidia 推理运行的人工响应时间端到端 Clarifai K2.5