重点观察

AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘

围绕一元一分红中赖子麻将群、复盘指南相关线索,这个结果说明,描述与实际页面内容的匹配度,比文字本身更关键。
信息编辑室 2026-04-28 05:12:21 阅读 502
AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘
内容提要
围绕一元一分红中赖子麻将群、复盘指南相关线索,这个结果说明,描述与实际页面内容的匹配度,比文字本身更关键。

这个结果说明,描述与实际页面内容的匹配度,比文字本身更关键。

最近一篇arXiv论文把AI代理在编码任务中的token消耗模式摆到了台面上。这项研究分析了八个前沿大模型在SWE-bench Verified基准上的完整代理轨迹,首次系统性揭示了代理经济的核心矛盾:表面上看,AI代理能处理多步复杂工作流,提升效率,但实际token开销远超普通代码推理或聊天场景,输入token成为主导成本。行业内许多人仍乐观认为代理会自然带来高价值产出,却往往忽略了这个隐性黑箱。

本地部署的开源Agent则几乎实现了零token消耗,主要成本集中在电费和硬件折旧上。利用Ollama等工具在本地网络运行,数据完全不出域,内网延迟更低,特别适合高频迭代的日常编码工作。一些团队实测显示,常规任务迁移到本地后,月度电费可控制在百元级别,与云端重度使用时的数万消耗形成鲜明对比,长期来看节省显著。

最近,一篇arXiv论文系统剖析了八个前沿大模型在SWE-bench Verified上的agentic coding轨迹,结果显示人类专家评定的任务难度与AI Agent实际token消耗之间仅呈弱相关,Kendall τ系数约为0.32。许多被标记为“简单”的任务却消耗了远超预期的token,而部分“困难”任务在某些模型上反而高效收尾。这一发现直接暴露了人类直觉与AI实际计算努力之间的显著gap。

本地开源Agent则提供了另一种成本结构。通过Ollama等工具部署,token消耗接近零,主要支出转为电费和硬件折旧。数据完全留在本地网络,隐私得到实质保障,内网响应延迟也更低,适合需要持续高频运行的编码工作流。行业实测显示,一些常规任务迁移到本地后,月电费可控制在百元级别,与云端数万消耗形成鲜明对比。

不同模型在token效率上的差距同样值得关注。在相同SWE-bench Verified任务上,部分前沿模型的表现拉开了明显距离,效率较低的模型可能多消耗百万级token。这一差异在企业规模化部署时会直接放大为可观的成本鸿沟。有意思的是,人类专家对任务难度的主观判断与实际token消耗仅呈弱相关,这暴露了感知复杂度与计算开销之间的鸿沟。模型自身对token消耗的预测能力也较弱,相关性最高仅到0.39,且普遍存在系统性低估。

模型间的token效率差异进一步放大了这一问题。在相同SWE-bench类任务上,某些前沿模型的平均消耗明显高于效率更高的选项,输入token占比常超过50%。人类专家评定的任务难度与实际token成本相关性微弱,模型自身对消耗的预测相关性也仅在0.4左右且系统性低估。这一点目前行业内仍有不同声音,但实测数据已足够提醒我们,盲目依赖迭代循环容易让预算在不可预测的随机性中蒸发。

最近,一篇刚登上arXiv的论文“How Do AI Agents Spend Your Money?”把AI Agent在编码任务里的真实开销问题摊开了。研究团队追踪了八个前沿大模型在SWE-bench Verified上的完整执行轨迹,发现agentic coding任务的token消耗远超传统代码推理或聊天场景,动辄高出1000倍左右,而主导成本的并非大家以为的输出生成代码,而是反复堆积的输入上下文。

最近一篇arXiv论文将AI Agent在agentic software engineering中的token消耗分布清晰呈现出来。研究基于ChatDev框架和GPT-5模型,对30个软件开发任务的执行轨迹进行分析,发现代码审查阶段平均占据59.4%的总token,成为整个SDLC流程中最主要的成本驱动因素。这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,凸显出多代理协作中的“通信税”现象。

当然,GPT-5 并非在所有维度都领先。在某些需要极致深度推理的复杂场景下,它的准确率可能存在一定局限,团队仍需根据具体任务特性进行权衡。但对于预算敏感或追求稳定部署的开发者而言,这类 token 高效模型提供了更务实的平衡点。省 token,本质上就是在控制真实开发成本,而非简单牺牲性能。

论文数据显示,agentic 任务中输入 token 占比显著高于输出,Agent 需要不断将历史对话、工具返回、代码仓库片段以及失败尝试塞入上下文。这种循环机制类似于开车时每前进一小步都要加载整部车的行驶历史,只为决定下一步方向。传统聊天任务输入输出比例相对平衡,而在复杂编码工作流中,输入端的累积效应直接推高了总账单。

复盘指南的竞争,已经从单一工具转向整体能力比拼。

固定信息

固定链接:http://www.ss7a.cn/images/6111.html

作者简介:栏目观察编辑负责把热点素材、正文段落和相关入口统一整理,重点覆盖聚合正文校对与同主题段落归纳,让内容更新更适合批量文章页使用,并根据当期话题做差异化补充。

互动量:评论 5 / 点赞 1463

本文标题:AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘
固定链接:http://www.ss7a.cn/images/6111.html
说明:本页内容以主题整理、信息补充和相关阅读为主,适合按频道结构做连续查看。

相关内容

进入频道

AI Agent任务复杂度与token消耗的弱相关性:人类直觉为何失效

最近,一篇来自arXiv的论文把AI Agent成本控制的老问题摆上了台面。研究团队系统分析了八个前沿大模型在SWE-bench Verified基准上的agentic coding轨迹,结果显示:人类专家打分的任务复杂度,与AI Agent实际消耗的token数量之间,只有很弱的相关性。这件事听起来简单,却直接戳破了很多开发者长期以来的直觉假设。 AI Agent token消耗这个话题,过去...

发布时间:2026-06-25

Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

最近,一篇arXiv论文把开发者圈子里的一个隐性痛点摆上了台面:Agentic Coding任务的token消耗,竟然是普通代码聊天或简单推理任务的1000倍左右。这不是夸张的比喻,而是基于SWE-bench Verified基准的实测数据。论文作者系统分析了八款前沿大模型在代理编码场景下的轨迹,发现输入token才是真正的成本大头,而不是大家以为的输出生成。表面上看,AI代理能自主迭代、调试、修...

发布时间:2026-06-25

AI Agent 高 token 消耗时代,固定订阅模式还能撑多久?深度经济挑战分析

最近,一篇来自arXiv的论文把AI Agent的成本问题摆到了台面上。研究针对SWE-bench Verified上的编码任务,分析了八个前沿大模型的轨迹,发现Agentic任务的token消耗远超普通代码推理或聊天场景,高达1000倍。输入token而非输出token成为主要开销来源,同一任务不同运行间消耗差异可达30倍,模型预测自身用量时相关性仅0.39,且普遍低估真实成本。这件事比表面上“...

发布时间:2026-06-25

2026 年 AI Agent 成本预测:从单任务到企业级规模化

最近 arXiv 上的一篇论文《How Do AI Agents Spend Your Money?》引起了不少关注。这篇研究系统分析了 AI Agent 在 agentic coding 任务中的 token 消耗模式,基于八个前沿大模型在 SWE-bench Verified 基准上的轨迹数据,给出了较为清晰的画像。核心结论之一是,AI Agent 执行复杂任务时 token 用量远高于预期,...

发布时间:2026-06-25

从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价

最近一篇 arXiv 论文把 AI 代理的成本问题摆到了台面上。论文标题直指“How Do AI Agents Spend Your Money”,聚焦代理在复杂工作流中的 token 消耗。随着 AI 代理被越来越多地用于编码等实际任务,token 用量快速增长,三个核心问题随之浮现:代理把 token 花在了哪里?哪些模型更省 token?代理能否在执行任务前预测自己的 token 用量? ...

发布时间:2026-06-25

AI编码Agent的“通信税”:输入token如何主导你的账单

最近一篇arXiv论文把AI编码Agent的真实成本摆到了台面上。研究团队分析了八个前沿大模型在SWE-bench Verified任务上的运行轨迹,结果显示,Agentic任务的token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,主导账单的不是模型输出的新代码,而是不断累积的输入token。 这件事比表面“AI帮你写代码省钱”复杂得多,账单背后的隐形成本正悄然吞噬预算。 很多...

发布时间:2026-06-25