哪里有一块1分跑的快群的价值,最终还是要回到业务结果上来。任何脱离这个锚点的讨论,都容易变成空谈。
无限循环迭代是常见浪费陷阱之一。Agent 反复尝试相似修复方案,每次都重新加载大量历史上下文,导致输入 token 线性累积。论文轨迹数据显示,这种循环在代码审查和验证阶段占比突出。实操中可在框架内设置单任务 token 预算上限,接近阈值时强制中断并保存检查点,下次从中间状态继续;小规模任务优先选用 GPT-5 类高效模型,大型任务则先用轻量模型规划再切换主力,避免从头烧钱。
论文进一步揭示,同一任务的不同运行之间,总token消耗的随机性极高,差异可达30倍之多。有趣的是,高token消耗并不必然带来更高准确率;相反,准确率往往在中位成本区间达到峰值,继续增加消耗后收益迅速饱和。这意味着盲目延长迭代轮次或允许Agent“多跑几遍”,未必是提升成功率的理性选择,反而可能直接放大预算风险。
值得持续跟踪的是,随着 agentic 应用深化,如何在压缩激进程度与信息保真度之间找到平衡,仍是行业内存在不同声音的领域。
人类专家评定的任务难度与实际token成本仅呈弱相关,这一发现暴露了人机认知的系统性脱节。我们感知的复杂任务,代理有时能以较低开销解决;而看似常规的问题却可能引发长循环,吞噬大量资源。这一点目前行业内仍有不同声音,却指向一个清晰方向:未来透明定价机制或许需引入预执行估算或结果导向的混合计费,而非纯token结算。值得持续跟踪,现在下结论为时尚早。
云端前沿模型如GPT-5、Claude-Sonnet系列在SWE-bench Verified等基准上的表现仍具明显优势。它们无需额外硬件,API调用即开即用,能快速构建复杂多步Agent流程,在高难度编码场景中准确率更高。论文同时指出,不同模型间token效率差异显著,有些模型在相同任务上比GPT-5多消耗超过150万token。这说明云端买到的确实是当前最强的大脑,但每一次思考迭代都伴随着持续的付费。
最近,一篇arXiv论文首次系统拆解了AI Coding Agent在SWE-bench Verified上的token消耗轨迹。研究团队借助OpenHands框架,追踪了八大前沿LLM在500个真实GitHub issue上的完整执行路径,揭示出agentic任务的token开销远超普通代码推理或聊天场景。输入token而非输出,成为成本主导因素。这比单纯“模型越强越贵”的直觉复杂得多。
模型间的token效率差异同样惊人。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不是小差异,尤其在按token计费的实际场景中。更耐人寻味的是,人类专家主观评定的任务难度与实际token消耗仅呈弱相关。开发者眼中“简单”的bug修复,可能因代理的探索路径冗长而烧掉巨量token;反之,一些看似棘手的任务却能相对高效收敛。
长期而言,企业级部署下的 TCO 将成为决定性因素。token 费用可能仅占整体成本的 15-20%,剩余部分来自监控编排、安全防护以及人工 oversight 等环节。若多代理协作中的通信税问题未能有效缓解,规模化 ROI 的实现周期或将延后。当然,如果上下文压缩、提示缓存以及更高效模型得到广泛应用,成本曲线仍有下行空间。这一点目前行业内仍有不同声音,值得持续跟踪,现在下结论为时尚早。
然而,盲区明摆着的。很少有人注意到背后token成本的爆炸式增长及其随机性。论文数据显示,同一任务不同运行间,总token消耗差异可达30倍,这意味着一次实验可能只需几万token,重跑却轻易烧掉上百万。 更关键的是,准确率并不随token投入线性提升,往往在中间成本区间达到峰值,继续增加投入后边际收益迅速递减。
主流的定价误区在于过度关注“输出token溢价”。很多人以为输出单价高就是主要开销来源,于是在提示词里反复强调保持简洁、只输出最终结果。但在Agentic场景里,模型每一步都需要把之前的上下文、工具输出和历史轨迹全部塞回输入窗口。上下文不断累积,输入token就成了真正驱动长期成本的因素。输出token贵是表象,输入token才是Agent烧钱的真凶。
短期看效果不明显,但拉长周期后,哪里有一块1分跑的快群带来的复利会逐步释放。