我们构建了路由层来降低 AI 成本。它破坏了产品。

一个团队将 AI 推理费用削减了一半以上。三个月后,客户满意度下降,成本节省与质量损失联系在一起。成本优化路由层是一个帕累托陷阱,这里的检测方法可以在几天而不是几个月内捕获它们。我们构建路由层来降低人工智能成本的帖子。它破坏了产品。首先出现在《走向数据科学》上。

来源:走向数据科学

上季度将人工智能推理费用削减了一半以上。八周的清洁工程工作。这是工程团队一整年都在追求的胜利。这也是错误的优化。三个月后,客户满意度下降,客户流失率上升,成本节约在结构上与质量损失相关。我们还没有赢。我们刚刚将成本转移到我们没有测量的地方。

这是我预计在未来六个月内跨生产 AI 部署看到的模式。 2026 年围绕人工智能经济学的对话已经产生了共识。将简单查询路由到廉价模型。将昂贵的查询保留在有能力的模型上。削减开支,保持质量。每个首席财务官都看过数学。每个工程团队都已经建造或正在建造它。

数学是真实的。帕累托陷阱也是真实存在的。

下面的内容是我在进行事后分析后告诉团队的内容。它描述了他们构建的架构、他们遇到的故障模式、更早发现它的检测方法,以及他们应该构建的架构模式。它还涵盖了我在此之后审计的另外两个部署,其中相同的模式出现在不同的行业中。综合证据表明,成本优化路由层(按照共识剧本规定的形式)在生产中结构脆弱。

我们构建了什么

该团队为 SaaS 产品运营了一个客户支持 AI 代理,该产品每月约有 400 万活跃用户。该代理在单个功能模型上运行,这是构建时堆栈中最高层的推理模型。推理量足够高,模型提供商的每月账单已增长到六位数,并且随着采用规模的扩大而不断上升。

这种差距花了三个月的时间才在业务指标中显现出来,又花了一个月的时间才被正确归因。当他们明白发生了什么时,四个月过去了,客户的影响已经在房间里。