Clarifai 推理引擎在 Kimi K2.5 上实现每秒 414 个令牌

Clarifai 在 Kimi K2.5 上实现了每秒 414 个令牌,是首批在 Nvidia B200 GPU 上运行的万亿参数推理模型上达到 400+ TPS 的提供商之一。

来源:Clarifai博客 | 实际应用中的人工智能

TL;DR

使用定制 CUDA 内核和针对推理工作负载进行优化的推测解码,我们在 Nvidia B200 GPU 上运行的 Kimi K2.5 上实现了每秒 414 个令牌的吞吐量,使我们成为首批在万亿参数推理模型上达到每秒 400 个以上令牌的提供商之一。

在 Nvidia GTC 之前,我们很高兴与大家分享,Clarifai Reasoning Engine 在 Kimi K2.5 上实现了每秒 414 个令牌 (TPS) 的吞吐量,使我们跻身于人工分析衡量的前沿推理模型的顶级推理提供商之列。我们的平台在 Nvidia B200 GPU 基础设施上运行,为代理工作流程和复杂推理任务提供生产级性能。

图 1:Clarifai 在 Kimi K2.5 上每秒实现 414 个令牌,在人工分析基准上排名最快的推理提供商之一。

为什么 Kimi K2.5 性能很重要

Kimi K2.5 是一个 1 万亿参数推理模型,具有 384 名专家的 Mixture-of-Experts 架构,每个请求激活 320 亿个参数。该模型由 Moonshot AI 构建,对 15 万亿混合视觉和文本标记进行了本机多模式训练,在关键基准测试中提供了强大的性能:50.2% HLE 使用工具、76.8% SWE-Bench Verified 和 78.4% BrowseComp。

作为推理模型,Kimi K2.5 在最终答案之前生成扩展的思维序列。 Clarifai 的首次回答时间为 6 秒,其中包括模型在提供响应之前的内部思考时间。吞吐量直接影响代理系统、代码生成和多模式推理任务的端到端响应时间。我们以 414 TPS 提供生产部署所需的速度。

图 2:跨推理提供程序的首次应答令牌时间 (TTFT) 性能,通过人工分析使用 10,000 个输入令牌进行测量。

我们如何优化吞吐量

Clarifai Reasoning Engine 针对大型推理模型采用了三大核心优化:

与 Kimi K2.5 一起构建