最新一元一分跑的快群的搜索用户,更倾向于停留在能提供清晰思考路径的页面上。
论文重点拆解了agentic tasks的内在机制:不同于单步问答,AI编码Agent需多轮工具调用、代码阅读、补丁生成与测试验证,每一步上下文都会累积进下一轮,导致输入token迅速膨胀。即使启用缓存,上下文管理仍难以完全避免膨胀效应。输出token虽不可忽视,但整体经济性主要由输入驱动,这与简单推理任务的成本结构形成鲜明对比。
上下文膨胀同样直接推高成本。Agent 运行中不断累积对话历史、工具输出和代码片段,输入窗口迅速扩张。针对这一问题,引入中间检查点机制,每固定步数对上下文进行 summarization 压缩,仅保留关键决策和变更记录;同时启用 caching,对重复文件或工具结果本地缓存,减少重复计费。在中等规模代码库项目中,预先生成架构摘要让 Agent 优先读取摘要而非全量文件,能显著降低输入开销。
另一个值得关注的点是,人类专家对任务难度的主观判断,与Agent实际消耗的token量只有弱相关。开发者认为简单的bug修复,可能让Agent反复试错消耗大量输入;而一些看似复杂的问题,模型却能较快收敛。这暴露了人类感知复杂度与实际计算努力之间的脱节,也给任务拆解和预算预估增添了额外不确定性。值得持续跟踪的是,如果未来上下文管理或预测技术没有明显突破,这种经济风险是否会成为AI Agent规模化部署的隐形门槛。
从行业观察来看,这种token爆炸式增长已开始影响团队决策。许多中小团队在生产环境中部署基于OpenHands的编码Agent后,发现一次失控迭代就能烧掉项目预算的很大一部分,最终被迫大幅缩减使用规模或临时下线。输入token主导成本的模式,让迭代循环不再是单纯的“聪明机制”,而是潜在的预算黑洞。70%与7%的剪刀差——部署计划高但规模化率低——与五年前企业上云早期阶段颇为相似,这次的时间窗口可能短得多。
模型间效率差异同样显著,Kimi-K2 和 Claude-Sonnet-4.5 在相同任务上平均比 GPT-5 多消耗超过 150 万 token。这件事比表面看起来复杂得多:2026 年企业级规模化部署的真实 TCO 远不止 token 费用本身。
最近arXiv上发布的论文《How Do AI Agents Spend Your Money?》对agentic coding任务的token消耗进行了系统性分析,基于八个前沿模型在SWE-bench Verified基准上的执行轨迹数据。研究发现,AI Agent在复杂编码场景下的token用量远超普通代码推理或聊天任务,差距可达约1000倍,且输入token而非输出token成为主导成本驱动因素。
大多数讨论仍停留在代理带来的效率跃升上。在SWE-bench这类真实软件工程基准中,顶级代理系统已展现出不俗表现,许多开发者相信,用好Agentic Coding就能让AI像资深工程师一样独立处理复杂项目,从而显著减少人力投入。主流观点倾向乐观,认为这标志着从简单聊天助手向真正工作伙伴的转变,用对它就能放大生产力。
人类专家评定的任务难度与实际token消耗仅呈现弱相关。一些被认为复杂的issue,Agent可能快速找到高效路径;而看似简单的修复,却让Agent陷入漫长的试错循环,token开销远超预期。这暴露了当前Agent“思考路径”与人类认知之间的明显鸿沟。模型自身在任务启动前预测token使用的能力也较弱,相关系数最高仅0.39,且普遍存在系统性低估,这进一步加剧了部署时的成本不确定性。
提示缓存与上下文管理直接针对输入重复浪费。启用平台级 prompt caching 可将不变的系统指令、工具定义或历史摘要的输入价格降至原来的十分之一左右。结合定期用轻量模型生成简短状态摘要替换完整历史记录,避免每轮全量重传,能进一步将重复 token 开销控制在可接受范围。实际项目中这一策略单独贡献的节省常在 25-40%。
防控的关键不在于彻底取消迭代,而是让Agent学会在预算边界内“聪明停手”。通过结合硬性token上限、早停判断和上下文压缩等手段,开发者能在保持准确率基本稳定的前提下,将整体消耗降低70%以上。这不是限制Agent的能力,而是让它避免在无效循环中浪费资源,真正实现高效的编码辅助。
但在抵达那里之前,还有诸多基础性工作需要完成。