Clarifai 11.9：推出针对代理 AI 推理进行优化的 Clarifai 推理引擎 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Clarifai 11.9：推出针对代理 AI 推理进行优化的 Clarifai 推理引擎

2025年10月16日 12:00 33 Comments

Clarifai 推理引擎、新工具包、Qwen 模型和 GPU 选项，可实现更快、优化的 AI 工作负载。

来源:Clarifai博客 | 实际应用中的人工智能

这篇博文重点介绍新功能和改进。如需完整列表（包括错误修复），请参阅发行说明。

这篇博文重点介绍新功能和改进。有关完整列表（包括错误修复），请参阅发行说明。

我们正在推出 Clarifai Reasoning Engine，这是一个全栈性能框架，旨在为推理和代理 AI 工作负载提供创纪录的推理速度和效率。

Clarifai 推理引擎 创纪录的推理速度和效率

与部署后趋于稳定的传统推理系统不同，Clarifai 推理引擎不断从工作负载行为中学习，动态优化内核、批处理和内存利用率。这种自适应方法意味着随着时间的推移，系统会变得更快、更高效，特别是对于重复性或结构化代理任务，并且不会影响准确性。

不断从工作负载行为中学习 随着时间的推移更快、更高效

在 GPT-OSS-120B 上的 Artificial Analysis 最近的基准测试中，Clarifai 推理引擎创下了 GPU 推理性能的新行业记录：

人工分析基准 人工分析 GPT-OSS-120B 行业新纪录

544 个令牌/秒吞吐量 — 基于 GPU 的最快推理测量 0.36 秒首次令牌时间 — 近乎即时的响应能力每百万令牌 0.16 美元 — 最低混合成本

544 个令牌/秒吞吐量 — 测得最快的基于 GPU 的推理

544 个令牌/秒吞吐量

0.36 秒首次发出令牌的时间 — 近乎即时的响应能力

0.36s 首次令牌时间

每百万代币 0.16 美元 — 最低的混合成本

每百万代币 0.16 美元

这些结果不仅优于所有其他基于 GPU 的推理提供商，而且还可以与专用 ASIC 加速器相媲美，证明现代 GPU 在与优化的内核配合使用时可以实现可比甚至卓越的推理性能。

与模型无关 Qwen3-30B-A3B-Thinking-2507 与我们的人工智能专家交谈 vLLM

Clarifai 准确性最低的动态工作负载引擎所有其他 0.36 加速器性能自适应部署后分析推理意味着 GPU 544 重复性吞吐量内核人工智能人工即时的令牌创纪录的利用率推移稳定的优化创纪录时间的 0.16 代理最近的动态优化代币