详细内容或原文请订阅后点击阅览
Tokenminning:如何以更少的成本从聊天机器人中获得更多
Tokenmaxxing 已出炉。在不牺牲人工智能有效性的情况下降低成本的真实模式《Tokenminning:如何以更少的成本从聊天机器人中获得更多》一文首先出现在《走向数据科学》上。
来源:走向数据科学病毒通过大型科技传播。
人们直接或间接地根据工程师能消耗多少人工智能来评判他们。更多代币、更多输出、更多计算。有些公司甚至有排行榜。
这是按代码行数对工程师进行排名的 2026 版本。
少即是多
Tokenminning 是 tokenmaxxing 的对立面。
随着使用量的增长,代币效率变得越来越重要。每个不必要的令牌都会增加成本、延迟和复杂性。
Tokenminning 是一种新模式,它可以系统地最大限度地减少代币使用,同时保持(如果不是提高的话)AI 代理的性能。
在本文中,我将介绍用于降低成本的实用代币挖掘策略。所有这些策略都可以在不进行重大重构的情况下部署。
结果:在不牺牲质量的情况下显着降低 AI 成本
Tokenmaxxing 的成本
Tokenmaxxing 和其他简单的人工智能使用方法有一个共同的假设:具有更多代币的输入会带来更好的输出。
这种假设会导致超出必要的提示,加载未压缩的上下文和 RAG 膨胀。在某些情况下,它可以提高性能,但是,它引入了一些重大问题。
1. 财务成本
不出所料,成本飙升。
发送到模型并由模型生成的每个令牌都有一个价格。交互式聊天具有合理大小的输入和输出,因此天真的估计成本首先看起来是可控的。
但是,真实代理令牌的使用违反了您可能对平均令牌使用所做的所有假设。使用前沿模型运行长期运行的代理可能会导致高昂的成本。
日常使用人工智能的实际成本是多少?
我对我自己的个人使用情况、交互式聊天和我的代理进行了快速分析。
就背景而言,我目前是一家生物技术初创公司的人工智能主管。我使用人工智能作为交互式研究助手(医学论文、癌症研究、机器学习),并且我还开发了多个执行以下任务的代理:
这是细分:
