中长期的价值释放则依赖于流程重构和人才匹配。
最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》把这个痛点说得很清楚。他们用OpenHands agent在SWE-bench Verified任务上系统分析,发现agentic coding任务的token消耗是普通代码聊天或推理任务的1000倍左右。而且,主导成本的不是输出token,而是输入上下文。同一任务不同运行之间,token用量差异能达到30倍。
这些现象解释了为什么许多团队在实际部署AI编码Agent时会突然面临预算失控。Reflexion等自纠正循环让输入token二次方级增长,如果不主动干预,小型项目尚可勉强承受,但在生产环境,这种不可预测的消耗很容易拖垮整个开发预算,甚至迫使团队放弃agentic方案。我的判断是——但这个判断可能需要随更多实测数据修正。
最近,一篇arXiv论文系统追踪了八个前沿大模型在SWE-bench Verified上的agentic coding轨迹,结果显示人类专家评定的任务难度与实际token消耗之间仅呈弱相关,Kendall τ系数约为0.32。许多被标记为“15分钟级简单任务”的案例,却消耗了超过平均“1小时级任务”的token,而部分公认困难的问题在某些模型上反而高效收尾。
论文最反直觉的发现之一,是token使用的高度随机性。同一任务多次运行,总消耗可能相差高达30倍,即使固定模型和提示也难以消除这种随机波动。更重要的是,准确率往往在中等token成本时达到峰值,继续增加消耗后便出现饱和甚至边际递减。这打破了“多花钱就能多出好代码”的直觉认知,提示我们在Agent部署中,盲目追求高预算模型可能适得其反。
展望 2026 年,个人开发者或小团队在复杂编码任务上的单次运行,token 消耗轻松突破百万并非罕见,试点阶段预算超支的风险因此升高。企业若仅凭单次测试就推动规模化,很可能面临意外开支压力。长期看,企业级 TCO 中 token 费用可能仅占 15-20%,监控、编排、安全和人工 oversight 等环节将占据更大份额。
总体而言,这一发现让“AI Agent能显著降低开发成本”的预期变得更为 nuanced。短期内,开发者可通过监控单任务token轨迹、优化prompt设计或拆分审查子任务来缓解压力;长期看,tokenomics或将成为agentic software engineering的新瓶颈,推动上下文缓存、多代理分工等技术演进。但当前研究样本仍有限,实际生产环境下的表现可能因任务类型和框架差异而有所不同,值得持续跟踪后续优化研究。
长远来看,这一成本结构或将推动行业向更token-efficient的代理架构演进,包括优化上下文管理、引入有效缓存机制或开发专用成本预测工具。但如果这些技术突破迟缓,中小团队的使用门槛可能会悄然抬高。值得持续跟踪的是,中间成本策略是否能在变异性中提供更优的性价比平衡——这一点目前行业内仍有不同声音。
另一个值得关注的点是,人类专家对任务难度的主观判断,与Agent实际消耗的token量只有弱相关。开发者认为简单的bug修复,可能让Agent反复试错消耗大量输入;而一些看似复杂的问题,模型却能较快收敛。这暴露了人类感知复杂度与实际计算努力之间的脱节,也给任务拆解和预算预估增添了额外不确定性。值得持续跟踪的是,如果未来上下文管理或预测技术没有明显突破,这种经济风险是否会成为AI Agent规模化部署的隐形门槛。
大家对AI Agent写代码的认知,通常停留在高效和省时上。媒体和企业试点中常强调Agent可以自动迭代调试、处理复杂工作流,似乎输出一段代码就能带来明显ROI。可现实里,大多数讨论只关注最终生成的代码片段,却很少触及过程中上下文反复堆积的隐性开销。Agent不是一次性推理,而是要持续读取历史对话、工具返回、代码仓库片段以及失败尝试,这些内容全被塞进输入序列,一轮轮循环下来,总成本迅速失控。
模型token效率的差异同样值得关注。在相同编码任务上,不同前沿模型的表现呈现出明显剪刀差。部分模型的输入主导特性放大了规模化时的成本差距,而人类专家对任务难度的主观判断与实际token消耗仅存在弱相关。这暴露了经验预估与Agent真实计算开销之间的鸿沟。
排名代发飞机【seo1268】好友聊天,输入“上下分1元1分红中麻将群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行的灯塔,哪怕渺小,也能指引方向。不必因梦想遥远就轻言放弃,逐梦的路上,本就布满挑战。拆分目标,步步前行,哪怕每天只前进一小步,也是在靠近理想。不惧旁人的质疑,不畏前路的漫长,坚守初心,全力以赴。只要心中有梦,眼里有光,脚下有路,终能跨越山海,奔赴心之所向的远方。的案例,提供了值得认真复盘、迁移与优化的实操样本。