一元一分线上红中麻将群
图解长文 / 核心观点 / 结构整理
图解频道 实用秘籍 焦点拆解 · 图文并列

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解
围绕一元一分线上红中麻将群、以守代攻相关线索,更重要的是从行业观察者的角度,提供有价值的判断和归纳。
核心摘要
围绕一元一分线上红中麻将群、以守代攻相关线索,更重要的是从行业观察者的角度,提供有价值的判断和归纳。

作者信息

作者:热点选题组

简介:聚合内容编辑重点推进选题方向归纳与延伸阅读整理,强调同类内容聚合与归档效率,主要负责内容归档与页面补料,保证文章具备基本的信息完整度和阅读路径,并根据当期话题做差异化补充。

发布时间:2026-04-28 05:12:13

文章热度

阅读 787 点赞 1067 评论 3

更重要的是从行业观察者的角度,提供有价值的判断和归纳。

多数开发者与媒体仍将目光锁定在SWE-bench解决率上,热议Claude、GPT、Kimi等模型谁在特定issue上表现更优。社区常有“跑一次任务就烧几百块”的吐槽,却普遍默认高token消耗对应更高性能。很少有人真正拉开单次任务的完整轨迹,观察每一轮上下文累积与工具调用究竟在哪里推高了账单。这正是论文试图填补的盲区。

最近,一篇arXiv论文系统剖析了AI编码Agent在SWE-bench Verified任务上的token消耗轨迹。研究覆盖八个前沿大模型,结果显示agentic tasks的token用量远超普通代码聊天或单步推理,往往高出1000倍。更惊人的是,同一任务多次独立运行,总token消耗差异可达30倍,且输入token占据了成本的绝对主导。这件事比许多人想象的复杂得多,随机性才是隐藏最深的变量。

深挖SDLC各阶段的token分布,能看到明显的不均衡格局。代码审查不仅是token消耗主力,还呈现输入主导特征——输入占比51.4%,而输出仅24.7%。相比之下,编码阶段输出占比更高,因为需要产出大量新代码。另一篇相关研究进一步指出,在SWE-bench Verified任务中,同一任务不同运行的token消耗可相差高达30倍,且更高消耗并不必然带来更高准确率,准确率往往在中间成本区间达到峰值后饱和。

行业里不少团队已经开始尝试模型路由来应对这种低效。复杂规划和架构决策时调用前沿模型,确保方向不偏;子任务执行、代码生成或验证环节,则切换到更廉价高效的模型,比如Kimi系列或小型开源变体。结合LangGraph等框架设置路由规则,根据上下文长度或复杂度评分自动分流,单这一招就能把整体开销压低30-50%,而准确率基本不受影响。

你是不是也遇到过这种情况?用 OpenHands 或 Claude Code 处理一个看似简单的 bug 修复,任务跑完后账单却突然飙升,几万甚至百万 token 悄无声息地烧掉。arXiv 最新论文《How Do AI Agents Spend Your Money?》显示,agentic coding 任务的 token 消耗比普通代码聊天或单轮推理高出约 1000 倍,输入 token 而非输出成为主导成本。

相比之下,Kimi K2和Claude Sonnet 4.5在token消耗上处于较高区间,同一任务下平均多出150万+ token。论文分析可能的原因包括更激进的上下文扩展策略或更长的迭代循环,尤其在处理大型代码库时容易进入反复调试状态。当然,这些模型在准确率峰值区间有时能提供更强的表现,适合对性能有极致要求的实验性项目。但数据也显示,多消耗的token并不总能线性换来更好结果,这一点值得开发者警惕。

行业里讨论AI Agent成本时,焦点往往落在模型API定价和输出token单价上。开发者普遍认为,只要控制生成长度或优化提示,就能有效压低开支。论坛和社区里也常见吐槽:Agent确实能处理真实GitHub issue级别的复杂编码,但单次运行费用像随机变量一样难以把控。这些认知有其合理之处,却普遍忽略了运行间巨大的stochastic variance,以及实证显示的高消耗未必带来更高准确率这一盲区。

论文的核心贡献在于拆解了代理经济的三大问题:token究竟花在哪里、哪些模型更省资源,以及代理能否在执行前可靠预测自身消耗。主流观点倾向于认为代理会自然提升工作流价值,减少人工介入。但实证数据显示,这种假设忽略了输入token主导的累积效应以及运行间的剧烈波动。企业若仅凭直觉部署代理,很可能在预算控制上陷入被动。

无限循环迭代是常见浪费陷阱之一。Agent 反复尝试相似修复方案,每次都重新加载大量历史上下文,导致输入 token 线性累积。论文轨迹数据显示,这种循环在代码审查和验证阶段占比突出。实操中可在框架内设置单任务 token 预算上限,接近阈值时强制中断并保存检查点,下次从中间状态继续;小规模任务优先选用 GPT-5 类高效模型,大型任务则先用轻量模型规划再切换主力,避免从头烧钱。

arXiv 近期论文《How Do AI Agents Spend Your Money?》对八个前沿 LLM 在 SWE-bench Verified 上的轨迹进行了系统分析,发现 agentic coding 任务的 token 消耗比普通代码聊天或单轮推理高出约 1000 倍,而且主导成本的几乎全是输入 token,而非输出。同一任务不同运行之间的消耗差异可达 30 倍,随机性极强,这让成本预测变得异常困难。

一元一分线上红中麻将群的进展,更多体现在局部试点突破、概念迭代验证与早期价值探索层面。

本文标题:代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解
固定链接:http://www.ss7a.cn/images/6081.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。