哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比
作者信息
作者:资料编辑室
简介:资料归档编辑主要面向常用于资讯频道内容维护,负责同主题段落归纳、同主题段落归纳和基础内容复核,重视信息层次与页面稳定性,并根据当期话题做差异化补充。
发布时间:2026-04-28 05:12:10
文章热度
它需要帮助用户过滤噪音、理清逻辑,并提供有态度的判断参考。
大多数开发者目前看到的是代理带来的效率潜力。在SWE-bench这类真实软件工程基准上,顶级代理系统已展现出可观的解决率,许多人因此乐观地认为,部署agentic coding就能显著减少人力投入,将AI从辅助工具升级为独立的工作伙伴。但这一表面叙事往往忽略了背后经济层面的复杂性:token消耗的爆炸式增长并非线性可控。
提示缓存是另一个立竿见影的手段。agent运行中反复发送的系统指令、工具定义或历史摘要,完全可以启用平台级缓存。Claude等模型的prompt caching能把这部分输入token价格降到原来的十分之一。实际操作时,把不变前缀设为缓存对象,每隔几轮用廉价模型生成简短总结替换全量历史,避免重复浪费。不少项目反馈,这一层优化单独就能贡献25-40%的节省。
提示缓存与上下文管理直接针对输入重复浪费。启用平台级 prompt caching 可将不变的系统指令、工具定义或历史摘要的输入价格降至原来的十分之一左右。结合定期用轻量模型生成简短状态摘要替换完整历史记录,避免每轮全量重传,能进一步将重复 token 开销控制在可接受范围。实际项目中这一策略单独贡献的节省常在 25-40%。
工具调用冗余也值得警惕。Agent 在探索阶段频繁读取文件、执行终端命令,每次都产生额外输入 token,单纯代码库探索就可能烧掉数万 token。社区实践显示,预先生成项目依赖图或地图,只在必要时调用具体工具;工具输出通过 summarization 仅返回关键片段而非完整日志;重复调用尝试本地缓存或脚本预处理。这些操作结合后,能将探索阶段的 token 消耗压缩到可控范围。
最近一篇arXiv论文将AI代理在编码任务中的token消耗模式系统性地摆上台面。研究分析了八个前沿大模型在SWE-bench Verified基准上的完整代理轨迹,首次实证揭示代理任务与普通代码推理或聊天任务之间的巨大差异。行业主流观点仍乐观看待代理对工作流的提升潜力,但论文显示,成本黑箱远比想象中顽固,AI代理看似在替人类省力,实际却在把隐性开支推向前台。
模型间效率差距同样惊人。在相同任务集上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这种差异即使在所有模型都能成功解决的简单子集上依然存在,表明它源于模型行为模式而非任务内在难度。开发者若继续依赖统一的人类难度标签选型和预算,很容易出现资源错配。
arXiv上最新论文《How Do AI Agents Spend Your Money?》针对agentic coding任务进行了系统分析,考察了八个前沿LLM在SWE-bench Verified上的token消耗轨迹。研究发现,agentic任务消耗token比普通代码推理或聊天多出约1000倍,且主要是输入token主导成本,而非输出。
总体而言,AI编码Agent的迭代循环风险本质上是上下文膨胀与随机性的结合。Reflexion等自纠正机制放大了输入累积效应,却未必带来成比例的收益。开发者若不提前干预,token消耗的不可预测性很容易拖垮整个项目。如何在预算内让Agent“聪明停手”,仍是当前部署实践中一个值得持续关注的开放问题。
当然,成本趋势仍存在不确定性。如果上下文优化、提示缓存以及更高效模型得到普及,单任务开销有望得到更好控制;反之,多代理协作中的通信税若长期未解,规模化ROI的实现时间可能会延后。数据支持这个方向,但样本量和实际落地场景仍有局限,值得持续跟踪,现在下结论为时尚早。
论文还点出了一个容易被忽略的剪刀差:高token消耗并不对应高准确率。准确率往往在中间成本区间就已达峰值,继续烧钱反而收益递减。不同模型间效率差异也远超预期,Kimi-K2和Claude-Sonnet-4.5在相同SWE-bench任务上,平均比GPT-5多消耗150万以上token。人类专家对任务难度的判断,与实际token开销只有弱相关,这说明直觉在这里帮不上太大忙。
谁有1元1分红中麻将群的竞争格局,正在进入新一轮洗牌期。
固定链接:http://www.ss7a.cn/6061.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。