Clarifai 11.9:推出针对代理 AI 推理进行优化的 Clarifai 推理引擎

Clarifai 推理引擎、新工具包、Qwen 模型和 GPU 选项,可实现更快、优化的 AI 工作负载。

来源:Clarifai博客 | 实际应用中的人工智能

这篇博文重点介绍新功能和改进。如需完整列表(包括错误修复),请参阅发行说明。

这篇博文重点介绍新功能和改进。有关完整列表(包括错误修复),请参阅 发行说明。

Clarifai 推理引擎:针对代理 AI 推理进行了优化

我们正在推出 Clarifai Reasoning Engine,这是一个全栈性能框架,旨在为推理和代理 AI 工作负载提供创纪录的推理速度和效率。

Clarifai 推理引擎 创纪录的推理速度和效率

与部署后趋于稳定的传统推理系统不同,Clarifai 推理引擎不断从工作负载行为中学习,动态优化内核、批处理和内存利用率。这种自适应方法意味着随着时间的推移,系统会变得更快、更高效,特别是对于重复性或结构化代理任务,并且不会影响准确性。

不断从工作负载行为中学习 随着时间的推移更快、更高效

在 GPT-OSS-120B 上的 Artificial Analysis 最近的基准测试中,Clarifai 推理引擎创下了 GPU 推理性能的新行业记录:

人工分析基准 人工分析 GPT-OSS-120B 行业新纪录
    544 个令牌/秒吞吐量 — 基于 GPU 的最快推理测量 0.36 秒首次令牌时间 — 近乎即时的响应能力 每百万令牌 0.16 美元 — 最低混合成本
  • 544 个令牌/秒吞吐量 — 测得最快的基于 GPU 的推理
  • 544 个令牌/秒吞吐量
  • 0.36 秒首次发出令牌的时间 — 近乎即时的响应能力
  • 0.36s 首次令牌时间
  • 每百万代币 0.16 美元 — 最低的混合成本
  • 每百万代币 0.16 美元

    这些结果不仅优于所有其他基于 GPU 的推理提供商,而且还可以与专用 ASIC 加速器相媲美,证明现代 GPU 在与优化的内核配合使用时可以实现可比甚至卓越的推理性能。

    与模型无关 Qwen3-30B-A3B-Thinking-2507 与我们的人工智能专家交谈 vLLM