Tokenminning:如何以更少的成本从聊天机器人中获得更多

Tokenmaxxing 已出炉。在不牺牲人工智能有效性的情况下降低成本的真实模式《Tokenminning:如何以更少的成本从聊天机器人中获得更多》一文首先出现在《走向数据科学》上。

来源:走向数据科学

病毒通过大型科技传播。

人们直接或间接地根据工程师能消耗多少人工智能来评判他们。更多代币、更多输出、更多计算。有些公司甚至有排行榜。

这是按代码行数对工程师进行排名的 2026 版本。

少即是多

Tokenminning 是 tokenmaxxing 的对立面。

随着使用量的增长,代币效率变得越来越重要。每个不必要的令牌都会增加成本、延迟和复杂性。

Tokenminning 是一种新模式,它可以系统地最大限度地减少代币使用,同时保持(如果不是提高的话)AI 代理的性能。

在本文中,我将介绍用于降低成本的实用代币挖掘策略。所有这些策略都可以在不进行重大重构的情况下部署。

结果:在不牺牲质量的情况下显着降低 AI 成本

Tokenmaxxing 的成本

Tokenmaxxing 和其他简单的人工智能使用方法有一个共同的假设:具有更多代币的输入会带来更好的输出。

这种假设会导致超出必要的提示,加载未压缩的上下文和 RAG 膨胀。在某些情况下,它可以提高性能,但是,它引入了一些重大问题。

1. 财务成本

不出所料,成本飙升。

发送到模型并由模型生成的每个令牌都有一个价格。交互式聊天具有合理大小的输入和输出,因此天真的估计成本首先看起来是可控的。

但是,真实代理令牌的使用违反了您可能对平均令牌使用所做的所有假设。使用前沿模型运行长期运行的代理可能会导致高昂的成本。

日常使用人工智能的实际成本是多少?

我对我自己的个人使用情况、交互式聊天和我的代理进行了快速分析。

就背景而言,我目前是一家生物技术初创公司的人工智能主管。我使用人工智能作为交互式研究助手(医学论文、癌症研究、机器学习),并且我还开发了多个执行以下任务的代理:

这是细分:

2. 推理速度

3. 质量