AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
作者信息
作者:文章整理组
简介:热点采编人员主要面向主要面向同话题内容池建设,负责资讯页面维护、页面摘要整理和基础内容复核,偏向把复杂信息拆成易读段落,并根据当期话题做差异化补充。
发布时间:2026-04-28 05:12:32
文章热度
单一页面优化已难以满足复杂搜索意图。
论文核心数据显示,同一任务不同运行的token消耗可相差高达30倍,输入token而非输出token才是主导成本的因素。准确率通常在中等成本区间达到峰值,继续增加消耗反而出现饱和。这说明AI Agent的“努力”更多体现在反复吞吐上下文、调用工具和试错循环上,而不是像人类那样通过深化“脑力”攻克逻辑深度。
这些策略的共同逻辑,是把token从“盲目循环”转向“精准投放”。不是简单换更强模型,而是让每一步消耗都服务于真正有价值的决策。实际落地中,监控token breakdown、从小任务开始迭代路由和压缩规则,仍是避免隐形浪费的关键。值得持续跟踪的是,随着模型预测能力的迭代,未来是否会出现更智能的自动成本控制器,现在下结论还为时尚早。
模型间的token效率差异进一步放大了这一问题。在相同SWE-bench类任务上,某些前沿模型的平均消耗明显高于效率更高的选项,输入token占比常超过50%。人类专家评定的任务难度与实际token成本相关性微弱,模型自身对消耗的预测相关性也仅在0.4左右且系统性低估。这一点目前行业内仍有不同声音,但实测数据已足够提醒我们,盲目依赖迭代循环容易让预算在不可预测的随机性中蒸发。
模型间效率差距同样惊人。在相同任务集上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这种差异即使在所有模型都能成功解决的简单子集上依然存在,表明它源于模型行为模式而非任务内在难度。开发者若继续依赖统一的人类难度标签选型和预算,很容易出现资源错配。
我的判断是,如果项目涉及公司核心代码或数据隐私要求严格,且AI Agent属于日常高频工具,优先本地开源方案更划算——长期看省下的token费用和安心感价值更高。当然,这取决于具体硬件条件和团队储备,值得持续跟踪,现在下结论为时尚早。数据支持这个方向,但样本量和实际场景仍有局限。
另一个关键观察是不同模型的token效率差异巨大。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这反映出模型架构、工具交互机制以及上下文处理方式的本质区别。选择哪款模型部署代理系统,会直接拉开企业实际支出的差距,我的判断是——但这个判断可能需要随后续基准更新而修正。
本地部署的开源Agent则几乎实现了零token消耗,主要成本集中在电费和硬件折旧上。利用Ollama等工具在本地网络运行,数据完全不出域,内网延迟更低,特别适合高频迭代的日常编码工作。一些团队实测显示,常规任务迁移到本地后,月度电费可控制在百元级别,与云端重度使用时的数万消耗形成鲜明对比,长期来看节省显著。
》通过SWE-bench Verified上的轨迹数据分析发现,agentic coding任务的token消耗比普通代码聊天高出约1000倍,而且成本主要由输入token驱动,而不是输出的生成部分。这让不少人开始意识到,AI工具如果不加以控制,很容易从生产力助手变成隐形烧钱机器。
高消耗并不等于高准确率,准确率往往在中间成本水平就达到峰值,继续增加token反而收益递减。不同模型的效率差距也巨大,某些高效模型在相同任务上比前沿模型少耗上百万token。人类专家评估的任务难度,跟实际token成本只有弱相关,而模型自身预测消耗的相关系数最高仅0.39,还系统性低估真实用量。
上下文优化同样关键。定期引入总结模块压缩历史轨迹,只保留核心决策和最新状态,而非全量塞入;同时优先选用token效率更高的模型,并结合缓存机制减少重复工具输出的处理。实测显示,这些措施结合后,整体token消耗可下降70-90%,而任务准确率往往能持平甚至略有提升。本质上,不是让Agent无限反思,而是让它在预算约束内聪明地停手——这一点目前行业内仍有不同声音,但数据支持的方向值得持续跟踪。
区别在于,部分团队选择了更务实的切入点,从而避免了最常见的陷阱。
固定链接:http://www.ss7a.cn/images/6121.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。