我们构建了路由层来降低 AI 成本。它破坏了产品。 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

我们构建了路由层来降低 AI 成本。它破坏了产品。

2026年6月27日 15:00 33 Comments

一个团队将 AI 推理费用削减了一半以上。三个月后，客户满意度下降，成本节省与质量损失联系在一起。成本优化路由层是一个帕累托陷阱，这里的检测方法可以在几天而不是几个月内捕获它们。我们构建路由层来降低人工智能成本的帖子。它破坏了产品。首先出现在《走向数据科学》上。

来源:走向数据科学

上季度将人工智能推理费用削减了一半以上。八周的清洁工程工作。这是工程团队一整年都在追求的胜利。这也是错误的优化。三个月后，客户满意度下降，客户流失率上升，成本节约在结构上与质量损失相关。我们还没有赢。我们刚刚将成本转移到我们没有测量的地方。

这是我预计在未来六个月内跨生产 AI 部署看到的模式。 2026 年围绕人工智能经济学的对话已经产生了共识。将简单查询路由到廉价模型。将昂贵的查询保留在有能力的模型上。削减开支，保持质量。每个首席财务官都看过数学。每个工程团队都已经建造或正在建造它。

数学是真实的。帕累托陷阱也是真实存在的。

下面的内容是我在进行事后分析后告诉团队的内容。它描述了他们构建的架构、他们遇到的故障模式、更早发现它的检测方法，以及他们应该构建的架构模式。它还涵盖了我在此之后审计的另外两个部署，其中相同的模式出现在不同的行业中。综合证据表明，成本优化路由层（按照共识剧本规定的形式）在生产中结构脆弱。

该团队为 SaaS 产品运营了一个客户支持 AI 代理，该产品每月约有 400 万活跃用户。该代理在单个功能模型上运行，这是构建时堆栈中最高层的推理模型。推理量足够高，模型提供商的每月账单已增长到六位数，并且随着采用规模的扩大而不断上升。

这种差距花了三个月的时间才在业务指标中显现出来，又花了一个月的时间才被正确归因。当他们明白发生了什么时，四个月过去了，客户的影响已经在房间里。

测量的工程成本节约经济学错误的相同的下面的成本人工智能检测方法有能力的不同的模式模型质量客户支持真实的数学故障模式功能模型路由规定的昂贵的 AI 客户团队架构构建财务官保持质量