Agentic AI：如何节省代币 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Agentic AI：如何节省代币

2026年4月29日 13:30 33 Comments

缓存、延迟加载、路由、压缩等代理人工智能：如何节省令牌的帖子首先出现在走向数据科学上。

来源:走向数据科学

在生产中使用人工智能的成本相当昂贵。我们都知道这一点，并且我们知道大多数供应商都在努力研究如何使代理更便宜。

这就是为什么我认为在构建时牢记一些设计原则是个好主意，这可以帮助您了解可以在哪里节省一些费用。

我们将介绍提示缓存的工作原理以及为什么它能快速获胜、语义缓存、延迟加载工具和 MCP、路由和级联、委托给子代理以及保持上下文整洁。

我在整篇文章中都包含了交互式图表 - 这可以帮助您根据您使用的代币数量直观地了解每个原则可以为您带来的成本节省。

是的，我显然始终保持现实，每次节省都需要权衡。

随着上下文的增长，代理变得昂贵

您的第一个代理可能会附带 500 个令牌的系统提示和两个工具，但一旦它成长起来，这些数字就会迅速膨胀。

举例来说，泄露的 Claude 系统提示运行了大约 24,000 个代币，GPT-5 运行了大约 15,000 个代币。人们抱怨 Claude Code 中的一个简单的“hi”和一个空文件夹消耗了大约 31,000 个代币。 OpenClaw 用户报告称，第一轮有超过 150,000 个输入令牌发送到 Gemini 3.1 Pro，以获得 29 个输出令牌。

添加工具和 MCP 服务器，数字变得非常荒谬。仅工具定义就可能涉及数以万计的标记。如果跳过清理工具输出和旧的对话废气，那么您每次都会为这些垃圾付出代价。

如果没有优化，Gemini 3.1 Pro 上每天 100 条消息、166K 输入令牌的运行费用约为 996 美元，Claude Opus 4.6 上每月约为 2,490 美元。

有一些技巧可以降低这些成本，尽管许多生产设置无法正确使用它们，所以让我们详细介绍一下它们。

需要牢记的四项设计原则

在本文中，我们将使用四种不同的交互式计算器来介绍四种不同的原理。

语义缓存

000 服务器数字为什么交互式工具了解成本使用人工智能计算器不同的缓存使用的代理设计原则 Claude 节省输入代币供应商令牌运行费 Gemini 可能运行费用 MCP 根据文件夹简单的工作原理