这个结果说明,描述与实际页面内容的匹配度,比文字本身更关键。
最近一篇arXiv论文把AI代理在编码任务中的token消耗模式摆到了台面上。这项研究分析了八个前沿大模型在SWE-bench Verified基准上的完整代理轨迹,首次系统性揭示了代理经济的核心矛盾:表面上看,AI代理能处理多步复杂工作流,提升效率,但实际token开销远超普通代码推理或聊天场景,输入token成为主导成本。行业内许多人仍乐观认为代理会自然带来高价值产出,却往往忽略了这个隐性黑箱。
本地部署的开源Agent则几乎实现了零token消耗,主要成本集中在电费和硬件折旧上。利用Ollama等工具在本地网络运行,数据完全不出域,内网延迟更低,特别适合高频迭代的日常编码工作。一些团队实测显示,常规任务迁移到本地后,月度电费可控制在百元级别,与云端重度使用时的数万消耗形成鲜明对比,长期来看节省显著。
最近,一篇arXiv论文系统剖析了八个前沿大模型在SWE-bench Verified上的agentic coding轨迹,结果显示人类专家评定的任务难度与AI Agent实际token消耗之间仅呈弱相关,Kendall τ系数约为0.32。许多被标记为“简单”的任务却消耗了远超预期的token,而部分“困难”任务在某些模型上反而高效收尾。这一发现直接暴露了人类直觉与AI实际计算努力之间的显著gap。
本地开源Agent则提供了另一种成本结构。通过Ollama等工具部署,token消耗接近零,主要支出转为电费和硬件折旧。数据完全留在本地网络,隐私得到实质保障,内网响应延迟也更低,适合需要持续高频运行的编码工作流。行业实测显示,一些常规任务迁移到本地后,月电费可控制在百元级别,与云端数万消耗形成鲜明对比。
不同模型在token效率上的差距同样值得关注。在相同SWE-bench Verified任务上,部分前沿模型的表现拉开了明显距离,效率较低的模型可能多消耗百万级token。这一差异在企业规模化部署时会直接放大为可观的成本鸿沟。有意思的是,人类专家对任务难度的主观判断与实际token消耗仅呈弱相关,这暴露了感知复杂度与计算开销之间的鸿沟。模型自身对token消耗的预测能力也较弱,相关性最高仅到0.39,且普遍存在系统性低估。
模型间的token效率差异进一步放大了这一问题。在相同SWE-bench类任务上,某些前沿模型的平均消耗明显高于效率更高的选项,输入token占比常超过50%。人类专家评定的任务难度与实际token成本相关性微弱,模型自身对消耗的预测相关性也仅在0.4左右且系统性低估。这一点目前行业内仍有不同声音,但实测数据已足够提醒我们,盲目依赖迭代循环容易让预算在不可预测的随机性中蒸发。
最近,一篇刚登上arXiv的论文“How Do AI Agents Spend Your Money?”把AI Agent在编码任务里的真实开销问题摊开了。研究团队追踪了八个前沿大模型在SWE-bench Verified上的完整执行轨迹,发现agentic coding任务的token消耗远超传统代码推理或聊天场景,动辄高出1000倍左右,而主导成本的并非大家以为的输出生成代码,而是反复堆积的输入上下文。
最近一篇arXiv论文将AI Agent在agentic software engineering中的token消耗分布清晰呈现出来。研究基于ChatDev框架和GPT-5模型,对30个软件开发任务的执行轨迹进行分析,发现代码审查阶段平均占据59.4%的总token,成为整个SDLC流程中最主要的成本驱动因素。这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,凸显出多代理协作中的“通信税”现象。
当然,GPT-5 并非在所有维度都领先。在某些需要极致深度推理的复杂场景下,它的准确率可能存在一定局限,团队仍需根据具体任务特性进行权衡。但对于预算敏感或追求稳定部署的开发者而言,这类 token 高效模型提供了更务实的平衡点。省 token,本质上就是在控制真实开发成本,而非简单牺牲性能。
论文数据显示,agentic 任务中输入 token 占比显著高于输出,Agent 需要不断将历史对话、工具返回、代码仓库片段以及失败尝试塞入上下文。这种循环机制类似于开车时每前进一小步都要加载整部车的行驶历史,只为决定下一步方向。传统聊天任务输入输出比例相对平衡,而在复杂编码工作流中,输入端的累积效应直接推高了总账单。
复盘指南的竞争,已经从单一工具转向整体能力比拼。