“24小时一块1分跑的快群”_24小时一块1分跑的快群徒步论坛

内容提要

围绕24小时一块1分跑的快群、淡定出牌相关线索，但这种加成是暂时的，基础内容质量仍是决定性因素。

但这种加成是暂时的，基础内容质量仍是决定性因素。

同一任务不同运行的token消耗差异可达30倍，体现了极强的随机性。高token使用并不必然带来高准确率，准确率往往在中间成本区间达到峰值，继续堆token后边际效应迅速递减。Agent有时像一个爱绕路的司机，多绕几圈不仅没更快抵达，还白白烧掉更多油。Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token，这种效率差距直接拉开了真实部署成本。

另一个反直觉发现是准确率与token消耗并非正相关。数据表明，准确率往往在中间成本区间达到峰值，继续推高消耗后表现趋于饱和，甚至出现浪费——Agent可能在已验证路径上重复徘徊，却没有带来实质进步。这就像人类专家对任务难度的主观判断，与Agent实际计算努力之间存在明显脱节：感知棘手的bug有时只需少量token解决，而看似简单的issue却因随机路径耗费巨量资源。人类评分与真实token成本的相关性微弱，这一差距值得持续关注。

最近，一篇arXiv论文把AI Coding Agent在复杂软件工程任务中的token消耗轨迹拉到聚光灯下。研究团队借助OpenHands框架，在SWE-bench Verified数据集上追踪了八大前沿LLM的完整执行路径，首次系统拆解了“钱到底花哪了”这个现实问题。Agent任务的token消耗远超普通代码推理或聊天场景，输入部分成为主导成本，这远比简单看解决率复杂。

除了模型间差异，论文还指出，人为评定的任务难度与实际token消耗仅呈弱相关。人类直觉认为的“复杂Bug”，Agent执行时消耗的计算努力可能完全不同。这解释了为什么一些看似简单的修复任务会突然烧掉巨量token。类似地，前沿模型普遍无法准确预测自身token使用，预测相关性最高仅0.39，且系统性低估真实成本。这意味着预算规划往往不靠谱，值得持续跟踪，现在下结论为时尚早。

除了模型间差异，论文还指出人为评定的任务难度与实际 token 消耗仅呈弱相关。这说明人类直觉判断的“复杂程度”，与 Agent 真实执行时的计算努力存在明显脱节。一些看似简单的 Bug 修复，却可能因模型的迭代路径而烧掉巨量 token。这种感知与现实的差距，进一步增加了预算规划的难度，也解释了为什么许多团队在部署后才发现成本远超预期。

另一个反直觉点是，人类专家评定的任务难度与实际 token 消耗仅呈弱相关。某些在人类看来棘手的 GitHub issue，Agent 可能迅速找到高效路径；反之，一些看似简单的修复却让 Agent 陷入反复试错循环，token 开销远超预期。这反映出当前 Agent 的“思考路径”与人类认知之间仍存在明显鸿沟，也提醒我们不能简单用人工判断来预估部署成本。

上下文压缩与流程优化进一步收紧了膨胀空间。通过廉价模型预先过滤无关文档或工具输出、设置硬性 token 上限，以及将任务拆解为子代理（每个仅持有必要上下文），输入主导的成本结构得到显著改善。行业实操案例显示，组合使用这些方法后，单个复杂 coding 任务的 token 总量可从百万级降至十分之一左右，输入输出比例更趋均衡，而准确率并未明显下滑。

此外，前沿模型预测自身token消耗的能力相当有限。论文指出，预测与实际消耗的相关性最高仅0.39，且存在系统性低估。这让开发者在启动任务前难以准确预判开销，预算控制变得充满不确定性。短期内，这会让不少中小团队对大规模部署Agentic Coding保持谨慎；长期来看，它或将推动行业向token-efficient的代理架构演进，包括更优的上下文管理和成本预测工具。但如果缓存与压缩技术未能突破，使用门槛可能显著抬高中小玩家的参与度。

深层观察显示，agentic任务的高耗主要源于反复读取上下文、工具调用和迭代修正形成的“通信税”。高token用量并不必然对应更高准确率——研究指出准确率常在中间成本区间达到峰值，继续投入反而出现饱和。模型间效率差距显著，而人类专家对任务难度的主观判断与实际token成本仅呈弱相关。这说明凭经验预估的复杂度，与Agent真实计算开销之间存在明显鸿沟。

arXiv 近期论文《How Do AI Agents Spend Your Money?》对八个前沿 LLM 在 SWE-bench Verified 上的轨迹进行了系统分析，发现 agentic coding 任务的 token 消耗比普通代码聊天或单轮推理高出约 1000 倍，而且主导成本的几乎全是输入 token，而非输出。同一任务不同运行之间的消耗差异可达 30 倍，随机性极强，这让成本预测变得异常困难。

但现实更复杂，技术之外的组织协同和执行文化往往起到决定性作用。

继续查看

围绕当前主题，除本页正文外，还可继续进入新闻资讯、 AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？、 AI Agent删除数据库恢复的实战经验：云环境多层备份策略与快速恢复流程查看同类整理内容。

频道标签

固定信息

固定链接：http://www.ss7a.cn/6121.html

作者简介：信息维护编辑主要面向常用于资讯频道内容维护，负责延伸阅读整理、延伸阅读整理和基础内容复核，重视信息层次与页面稳定性，并根据当期话题做差异化补充。

互动量：评论 4 / 点赞 3416

同栏阅读：Anthropic股权换湾区豪宅：AI从业者该用股票还是现金买房？ / Adidas 2025 财报拆解：净利润暴增近70% 如何支撑2026年40%分红提升 / 唐艺昕浪姐低音翻车背后，何宣林分工调整的连锁反应

本文标题：AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？
固定链接：http://www.ss7a.cn/6121.html
说明：本页内容以主题整理、信息补充和相关阅读为主，适合按频道结构做连续查看。

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？

频道标签

固定信息

相关内容

AI编码Agent迭代循环如何导致token爆炸式增长？风险防控

哪款大模型在 Agentic Coding 中最省 token？8 大前沿模型对比

多代理协作中的Token浪费：从通信开销到优化路径

AI编码Agent的“通信税”：输入token如何主导你的账单

AI编码Agent同一任务token消耗为何波动高达30倍？论文实证揭秘

2026 年 AI Agent 成本预测：从单任务到企业级规模化