哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比
作者信息
作者:内容采编室
简介:热点采编人员主要面向主要面向同话题内容池建设,负责资讯页面维护、页面摘要整理和基础内容复核,偏向把复杂信息拆成易读段落,并根据当期话题做差异化补充。
发布时间:2026-04-28 05:12:10
文章热度
过去一年,“同城一元一分跑的快群”_同城一元一分跑的快群科学网相关页面的稳定排名,往往来自对越打越顺手的深度提炼。
模型间的效率差距同样值得注意。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不是边缘差异,对需要频繁调用Agent的团队来说,选择合适的基础模型能直接节省大笔API费用。论文对比显示,并非所有“大模型”在agentic场景下都同样经济。
arXiv 最新论文《How Do AI Agents Spend Your Money?》对 agentic coding 任务的 token 消耗进行了系统剖析,基于八个前沿模型在 SWE-bench Verified 上的真实轨迹数据。研究发现,AI Agent 在复杂编码场景下的 token 用量远超普通代码推理或聊天任务,高出约 1000 倍,且输入 token 而非输出 token 主导整体成本。
arXiv最新论文《How Do AI Agents Spend Your Money?》的轨迹分析显示,这种现象在agentic coding任务中极为普遍,输入token的累积是主因。
表面上看,AI Agent编码被宣传为高效工具,能自动迭代调试、处理复杂仓库,帮团队缩短开发周期。主流报道里常强调输出质量和速度,token费用虽高但被视为值得的投资。可实际运行时,大部分注意力都集中在最终生成的代码片段上,很少有人留意Agent在多轮交互中如何不断把历史对话、工具返回、失败日志和仓库片段塞进输入窗口。这些隐性输入累积起来,迅速把总成本拉高,跟传统单轮任务的输入输出平衡形成鲜明对比。
同一任务的不同运行轨迹,token消耗差异可达10-30倍,随机性远超预期。论文轨迹分析表明,高消耗并不必然对应高成功率——准确率常在中级token区间达到峰值,继续烧钱反而可能因无效迭代导致饱和。人类专家凭经验判断的任务难度,与实际token开支的相关性也仅为弱相关,这让预算预估变得格外棘手。
预测不准是另一个系统性问题。前沿模型对自己 token 使用量的预估相关性仅为弱到中等,且普遍低估真实成本。如果完全依赖 Agent 的自我判断,预算很容易失控。实操上,任务启动前手动统计相关文件 token 规模并设置保守缓冲,同时积累几次运行后的实际日志,形成个人经验数据库。数据支持这个方向,但样本量有限,值得持续跟踪。
同一任务下,不同运行的token消耗差异可达30倍,这种随机性远超预期。更反直觉的是,高token消耗并不必然对应高准确率,准确率往往在中间成本区间达到峰值,继续堆token后边际效应迅速递减。Agent的表现就像一个偶尔绕远路的司机,多走几圈未必更快抵达,还白白增加了油耗。
最近,一篇arXiv论文将AI编码Agent在SWE-bench Verified上的token消耗轨迹拉到台前。研究覆盖八个前沿大模型,发现agentic tasks的token用量远超普通代码聊天或单步推理任务,高达1000倍。更惊人的是,同一任务多次运行,总token差异可达30倍,而输入token成为绝对主导。
从行业观察来看,这种token爆炸式增长已开始影响团队决策。许多中小团队在生产环境中部署基于OpenHands的编码Agent后,发现一次失控迭代就能烧掉项目预算的很大一部分,最终被迫大幅缩减使用规模或临时下线。输入token主导成本的模式,让迭代循环不再是单纯的“聪明机制”,而是潜在的预算黑洞。70%与7%的剪刀差——部署计划高但规模化率低——与五年前企业上云早期阶段颇为相似,这次的时间窗口可能短得多。
最近,一篇arXiv论文把开发者们隐隐担忧的成本问题直接量化了:Agentic Coding任务的token消耗,竟然是普通代码聊天或单轮推理任务的约1000倍左右,主要由输入token驱动。
我的判断是——但这个判断可能需要修正——可持续性才是核心竞争力。
固定链接:http://www.ss7a.cn/images/6061.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。