重点观察

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?

围绕24小时一块1分跑的快群、淡定出牌相关线索,但这种加成是暂时的,基础内容质量仍是决定性因素。
热点采编组 2026-04-28 05:12:32 阅读 956
AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
内容提要
围绕24小时一块1分跑的快群、淡定出牌相关线索,但这种加成是暂时的,基础内容质量仍是决定性因素。

但这种加成是暂时的,基础内容质量仍是决定性因素。

同一任务不同运行的token消耗差异可达30倍,体现了极强的随机性。高token使用并不必然带来高准确率,准确率往往在中间成本区间达到峰值,继续堆token后边际效应迅速递减。Agent有时像一个爱绕路的司机,多绕几圈不仅没更快抵达,还白白烧掉更多油。Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token,这种效率差距直接拉开了真实部署成本。

另一个反直觉发现是准确率与token消耗并非正相关。数据表明,准确率往往在中间成本区间达到峰值,继续推高消耗后表现趋于饱和,甚至出现浪费——Agent可能在已验证路径上重复徘徊,却没有带来实质进步。这就像人类专家对任务难度的主观判断,与Agent实际计算努力之间存在明显脱节:感知棘手的bug有时只需少量token解决,而看似简单的issue却因随机路径耗费巨量资源。人类评分与真实token成本的相关性微弱,这一差距值得持续关注。

最近,一篇arXiv论文把AI Coding Agent在复杂软件工程任务中的token消耗轨迹拉到聚光灯下。研究团队借助OpenHands框架,在SWE-bench Verified数据集上追踪了八大前沿LLM的完整执行路径,首次系统拆解了“钱到底花哪了”这个现实问题。Agent任务的token消耗远超普通代码推理或聊天场景,输入部分成为主导成本,这远比简单看解决率复杂。

除了模型间差异,论文还指出,人为评定的任务难度与实际token消耗仅呈弱相关。人类直觉认为的“复杂Bug”,Agent执行时消耗的计算努力可能完全不同。这解释了为什么一些看似简单的修复任务会突然烧掉巨量token。类似地,前沿模型普遍无法准确预测自身token使用,预测相关性最高仅0.39,且系统性低估真实成本。这意味着预算规划往往不靠谱,值得持续跟踪,现在下结论为时尚早。

除了模型间差异,论文还指出人为评定的任务难度与实际 token 消耗仅呈弱相关。这说明人类直觉判断的“复杂程度”,与 Agent 真实执行时的计算努力存在明显脱节。一些看似简单的 Bug 修复,却可能因模型的迭代路径而烧掉巨量 token。这种感知与现实的差距,进一步增加了预算规划的难度,也解释了为什么许多团队在部署后才发现成本远超预期。

另一个反直觉点是,人类专家评定的任务难度与实际 token 消耗仅呈弱相关。某些在人类看来棘手的 GitHub issue,Agent 可能迅速找到高效路径;反之,一些看似简单的修复却让 Agent 陷入反复试错循环,token 开销远超预期。这反映出当前 Agent 的“思考路径”与人类认知之间仍存在明显鸿沟,也提醒我们不能简单用人工判断来预估部署成本。

上下文压缩与流程优化进一步收紧了膨胀空间。通过廉价模型预先过滤无关文档或工具输出、设置硬性 token 上限,以及将任务拆解为子代理(每个仅持有必要上下文),输入主导的成本结构得到显著改善。行业实操案例显示,组合使用这些方法后,单个复杂 coding 任务的 token 总量可从百万级降至十分之一左右,输入输出比例更趋均衡,而准确率并未明显下滑。

此外,前沿模型预测自身token消耗的能力相当有限。论文指出,预测与实际消耗的相关性最高仅0.39,且存在系统性低估。 这让开发者在启动任务前难以准确预判开销,预算控制变得充满不确定性。短期内,这会让不少中小团队对大规模部署Agentic Coding保持谨慎;长期来看,它或将推动行业向token-efficient的代理架构演进,包括更优的上下文管理和成本预测工具。但如果缓存与压缩技术未能突破,使用门槛可能显著抬高中小玩家的参与度。

深层观察显示,agentic任务的高耗主要源于反复读取上下文、工具调用和迭代修正形成的“通信税”。高token用量并不必然对应更高准确率——研究指出准确率常在中间成本区间达到峰值,继续投入反而出现饱和。模型间效率差距显著,而人类专家对任务难度的主观判断与实际token成本仅呈弱相关。这说明凭经验预估的复杂度,与Agent真实计算开销之间存在明显鸿沟。

arXiv 近期论文《How Do AI Agents Spend Your Money?》对八个前沿 LLM 在 SWE-bench Verified 上的轨迹进行了系统分析,发现 agentic coding 任务的 token 消耗比普通代码聊天或单轮推理高出约 1000 倍,而且主导成本的几乎全是输入 token,而非输出。同一任务不同运行之间的消耗差异可达 30 倍,随机性极强,这让成本预测变得异常困难。

但现实更复杂,技术之外的组织协同和执行文化往往起到决定性作用。

固定信息

固定链接:http://www.ss7a.cn/6121.html

作者简介:信息维护编辑主要面向常用于资讯频道内容维护,负责延伸阅读整理、延伸阅读整理和基础内容复核,重视信息层次与页面稳定性,并根据当期话题做差异化补充。

互动量:评论 4 / 点赞 3416

本文标题:AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
固定链接:http://www.ss7a.cn/6121.html
说明:本页内容以主题整理、信息补充和相关阅读为主,适合按频道结构做连续查看。

相关内容

进入频道

AI编码Agent迭代循环如何导致token爆炸式增长?风险防控

你是不是也遇到过这样的情况?部署了一个基于OpenHands的AI编码Agent,本来想让它在SWE-bench任务上修复一个GitHub issue里的bug,结果跑着跑着就停不下来了。自纠正机制不断反思历史轨迹,每一轮都把之前的上下文和工具输出重新塞进提示里,token消耗从最初的几千直接飙升到几十万甚至上百万。等账单出来时,才发现一次任务就把预算烧掉一大半,不少团队不得不紧急下线Agent或...

发布时间:2026-06-24

哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比

你是不是也遇到过这种情况:用AI Agent帮忙写代码或修复Bug,任务一启动,token消耗就失控。跑完一个复杂任务,账单直接翻倍,却搞不清哪个模型更省钱。很多团队一开始只盯着准确率,结果部署后才发现,token成本成了最大隐患。选错模型,不仅开发效率打折,整个Agent项目都可能变得不划算。 最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》给...

发布时间:2026-06-24

多代理协作中的Token浪费:从通信开销到优化路径

最近arXiv上的一篇论文把多代理协作的隐形成本摆到了台面上。AI代理在复杂的人类工作流中越来越普及,尤其是在编码任务里,Token消耗正快速增长。这篇研究系统分析了SWE-bench Verified上的代理轨迹,涉及八个前沿LLM模型,结果显示agentic任务的Token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,输入Token而非输出Token才是成本大头,多代理协作中上下文...

发布时间:2026-06-24

AI编码Agent的“通信税”:输入token如何主导你的账单

最近一篇arXiv论文把AI编码Agent的真实成本摆到了台面上。研究团队分析了八个前沿大模型在SWE-bench Verified任务上的运行轨迹,结果显示,Agentic任务的token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,主导账单的不是模型输出的新代码,而是不断累积的输入token。 这件事比表面“AI帮你写代码省钱”复杂得多,账单背后的隐形成本正悄然吞噬预算。 很多...

发布时间:2026-06-24

AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘

最近,一篇来自arXiv的论文把AI Agent的“花钱”习惯摆上了台面。研究团队分析了八个前沿大模型在SWE-bench Verified基准上的运行轨迹,结果显示AI编码Agent在复杂编码任务中token消耗远超普通聊天或代码推理任务,高达1000倍。更让人意外的是,同一个任务多次运行,总token用量差异能达到30倍,输入token成了成本大头。这件事比表面看起来复杂得多,随机性才是背后最...

发布时间:2026-06-24

2026 年 AI Agent 成本预测:从单任务到企业级规模化

最近 arXiv 上的一篇论文《How Do AI Agents Spend Your Money?》引起了不少关注。这篇研究系统分析了 AI Agent 在 agentic coding 任务中的 token 消耗模式,基于八个前沿大模型在 SWE-bench Verified 基准上的轨迹数据,给出了较为清晰的画像。核心结论之一是,AI Agent 执行复杂任务时 token 用量远高于预期,...

发布时间:2026-06-24