哪款大模型在 Agentic Coding 中最省 token？8 大前沿模型对比

围绕同城一元一分跑的快群、越打越顺手相关线索，过去一年，“同城一元一分跑的快群”_同城一元一分跑的快群科学网相关页面的稳定排名，往往来自对越打越顺手的深度提炼。

核心摘要

作者信息

作者：内容采编室

简介：热点采编人员主要面向主要面向同话题内容池建设，负责资讯页面维护、页面摘要整理和基础内容复核，偏向把复杂信息拆成易读段落，并根据当期话题做差异化补充。

发布时间：2026-04-28 05:12:10

文章热度

阅读 924 点赞 4071 评论 1

过去一年，“同城一元一分跑的快群”_同城一元一分跑的快群科学网相关页面的稳定排名，往往来自对越打越顺手的深度提炼。

模型间的效率差距同样值得注意。在相同SWE-bench任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不是边缘差异，对需要频繁调用Agent的团队来说，选择合适的基础模型能直接节省大笔API费用。论文对比显示，并非所有“大模型”在agentic场景下都同样经济。

arXiv 最新论文《How Do AI Agents Spend Your Money?》对 agentic coding 任务的 token 消耗进行了系统剖析，基于八个前沿模型在 SWE-bench Verified 上的真实轨迹数据。研究发现，AI Agent 在复杂编码场景下的 token 用量远超普通代码推理或聊天任务，高出约 1000 倍，且输入 token 而非输出 token 主导整体成本。

arXiv最新论文《How Do AI Agents Spend Your Money?》的轨迹分析显示，这种现象在agentic coding任务中极为普遍，输入token的累积是主因。

表面上看，AI Agent编码被宣传为高效工具，能自动迭代调试、处理复杂仓库，帮团队缩短开发周期。主流报道里常强调输出质量和速度，token费用虽高但被视为值得的投资。可实际运行时，大部分注意力都集中在最终生成的代码片段上，很少有人留意Agent在多轮交互中如何不断把历史对话、工具返回、失败日志和仓库片段塞进输入窗口。这些隐性输入累积起来，迅速把总成本拉高，跟传统单轮任务的输入输出平衡形成鲜明对比。

同一任务的不同运行轨迹，token消耗差异可达10-30倍，随机性远超预期。论文轨迹分析表明，高消耗并不必然对应高成功率——准确率常在中级token区间达到峰值，继续烧钱反而可能因无效迭代导致饱和。人类专家凭经验判断的任务难度，与实际token开支的相关性也仅为弱相关，这让预算预估变得格外棘手。

预测不准是另一个系统性问题。前沿模型对自己 token 使用量的预估相关性仅为弱到中等，且普遍低估真实成本。如果完全依赖 Agent 的自我判断，预算很容易失控。实操上，任务启动前手动统计相关文件 token 规模并设置保守缓冲，同时积累几次运行后的实际日志，形成个人经验数据库。数据支持这个方向，但样本量有限，值得持续跟踪。

同一任务下，不同运行的token消耗差异可达30倍，这种随机性远超预期。更反直觉的是，高token消耗并不必然对应高准确率，准确率往往在中间成本区间达到峰值，继续堆token后边际效应迅速递减。Agent的表现就像一个偶尔绕远路的司机，多走几圈未必更快抵达，还白白增加了油耗。

最近，一篇arXiv论文将AI编码Agent在SWE-bench Verified上的token消耗轨迹拉到台前。研究覆盖八个前沿大模型，发现agentic tasks的token用量远超普通代码聊天或单步推理任务，高达1000倍。更惊人的是，同一任务多次运行，总token差异可达30倍，而输入token成为绝对主导。

从行业观察来看，这种token爆炸式增长已开始影响团队决策。许多中小团队在生产环境中部署基于OpenHands的编码Agent后，发现一次失控迭代就能烧掉项目预算的很大一部分，最终被迫大幅缩减使用规模或临时下线。输入token主导成本的模式，让迭代循环不再是单纯的“聪明机制”，而是潜在的预算黑洞。70%与7%的剪刀差——部署计划高但规模化率低——与五年前企业上云早期阶段颇为相似，这次的时间窗口可能短得多。

最近，一篇arXiv论文把开发者们隐隐担忧的成本问题直接量化了：Agentic Coding任务的token消耗，竟然是普通代码聊天或单轮推理任务的约1000倍左右，主要由输入token驱动。

我的判断是——但这个判断可能需要修正——可持续性才是核心竞争力。

本文导航

若需要继续查看同主题内容，可返回首页、栏目页，或直接进入哪款大模型在 Agentic Coding 中最省 token？8 大前沿模型对比、太平鸟2026一季度净利润回暖：短期改善还是持续转机。

同栏阅读：尔木萄为什么选择丁禹兮做全球品牌代言人 / ADDYY 分红公告后如何操作：短期交易与长期持有指南 / AlphaGo之父David Silver为何离开DeepMind创业？1.1B融资背后的AI路径之争

本文标题：哪款大模型在 Agentic Coding 中最省 token？8 大前沿模型对比
固定链接：http://www.ss7a.cn/images/6061.html
说明：本文为当前主题的频道整理页，正文与相关阅读会持续围绕同类信息展开。

频道速览

站点：www.ss7a.cn

栏目：同城一元一分跑的快群 / 越打越顺手

地址：http://www.ss7a.cn/images/6061.html