线性思维,非线性成本

许多人工智能代理系统在技术上变得令人印象深刻之前很久就在经济上变得不可持续。团队通常关注模型选择、提示设计、工具调用和编排。这些事情很重要,但它们只是系统设置的一部分。更深层次的问题是编码代理,例如 Claude Code、Codex 和 Jules,使代理工作流程变得更容易 [...]

来源:O'Reilly Media _AI & ML

许多人工智能代理系统在技术上变得令人印象深刻之前很久就在经济上变得不可持续。团队通常关注模型选择、提示设计、工具调用和编排。这些事情很重要,但它们只是系统设置的一部分。更深层次的问题是,编码代理(例如 Claude Code、Codex 和 Jules)使代理工作流程更容易生成。但当实现被抽象出来时,底层机制就变得更难看到。糟糕的工程通常会产生缓慢的代码。现在它生产昂贵的系统,但速度也很慢。

当我们设计代理系统时,我们仍然需要记住成本是非线性缩放的。单个用户请求很少触发单个模型调用。它扩展到路由、检索、推理、反射、护栏检查、工具调用和综合。每个步骤都可以重复共享上下文、重新加载状态、重新计算规划器决策或重试失败的路径。因此,看起来像智能工作流程的行为实际上可以像具有重叠子问题的递归、有状态计算。如果这听起来像是回溯、动态规划和记忆,那么你是对的。

我们已经知道如何优化这样的系统。问题在于,编码代理使代理系统更容易生成,但不一定更容易优化。 Unless we recognize the underlying mechanics, we may never ask our coding agents to apply the optimization patterns that keep our systems viable.

穿新衣服的老问题

当我们使用编码代理来生成代理架构时,很容易停留在“跟踪看起来合理”上。该工具可以生成路由器、检索器、规划器、评估器、护栏、工具接口和综合步骤。它还可能了解缓存、修剪、记忆和状态建模。但它不一定会实现这些模式,除非您明确要求这些优化层。

成本乘数、重复工作问题和回溯

1−(1−0.60)= 0.98976

集中式 混合