提供数据支撑、对比维度和个人结论的页面,更容易获得搜索引擎的长期支持。
模型路由策略能有效平衡性能与成本。在规划和架构设计等高认知负载步骤中使用前沿模型,而将代码生成、测试执行或简单数据处理路由至更高效的廉价模型(如 Kimi 系列或小型开源变体),单这一做法即可实现 30-50% 的节省。关键在于根据任务复杂度、上下文长度或预设规则动态分流,而非全程依赖单一顶级模型。
不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的Agentic流程时,输入端的消耗像雪球一样滚大。账单拉出来一看,输入token占比远超预期,输出反而成了小头。
模型间的token效率差异同样惊人。在相同任务下,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这一差距在按量计费时会直接转化为显著成本差异。更有趣的是,人类专家主观评定的任务难度与实际token消耗仅呈弱相关。开发者眼中“简单”的bug修复,可能因代理探索路径冗长而消耗巨量token;反之,一些看似棘手的任务却能相对高效收敛。这暴露了当前代理设计在人类直觉与计算效率之间的明显脱节。
提示缓存与上下文管理直接针对输入重复浪费。启用平台级 prompt caching 可将不变的系统指令、工具定义或历史摘要的输入价格降至原来的十分之一左右。结合定期用轻量模型生成简短状态摘要替换完整历史记录,避免每轮全量重传,能进一步将重复 token 开销控制在可接受范围。实际项目中这一策略单独贡献的节省常在 25-40%。
此外,token使用的高度随机性加剧了成本不可预测性。论文观察到,同一任务不同运行间的总token消耗差异可达30倍,而准确率并不随token投入线性提升,反而常常在中间成本区间达到峰值,继续增加投入后收益边际递减。模型自身预测token消耗的能力也较弱,相关性最高仅0.39,且存在系统性低估。这意味着开发者在启动任务前难以准确预判开支,团队预算控制面临实际挑战。
论文进一步指出,token使用具有高度随机性。同一个任务多次运行的总消耗可能相差高达30倍,而且更高的token消耗并不一定带来更高的准确率,准确率往往在中等成本时达到峰值,继续增加投入反而边际收益递减。这意味着单纯追求“多思考”在预算上未必划算。
行业观察显示,许多团队已在采用混合策略:敏感核心代码或高频任务优先本地开源方案,复杂攻坚或追求极致准确率时切换云端。值得持续跟踪的是,随着开源模型快速迭代和硬件成本下降,这个权衡的天平是否会进一步向本地倾斜——尤其当企业核心知识产权保护成为刚需时。
值得持续跟踪的是,随着 agentic 应用深化,如何在压缩激进程度与信息保真度之间找到平衡,仍是行业内存在不同声音的领域。
这种消耗的随机性(stochastic nature)尤为突出。同一任务、同一个模型、同样的scaffold,几次运行的结果可能天差地别。某些路径下Agent快速收敛,另一些则陷入无效循环、反复探索分支或低效的工具调用序列。论文数据显示,路径差异直接导致总token相差30倍。这提醒我们,开发者不能简单把单次测试的消耗当作可靠基准。
最近一篇arXiv论文将AI代理在编码任务中的token消耗模式首次系统性地摊开分析。研究追踪了八个前沿大模型在SWE-bench Verified基准上的完整轨迹,发现代理任务的token开销远超普通代码推理或聊天场景。这不仅暴露了成本黑箱,还直接挑战了行业对代理效率的乐观预期。AI代理看似能处理复杂多步流程,实际却在反复交互中悄然推高支出,表面繁荣之下隐藏着更棘手的经济矛盾。
至于如何让这片土壤更肥沃,每个团队都在摸索自己的答案。