上下分一块1分跑的快群
聚焦 上下分一块1分跑的快群 / 实用攻略 / 深度观察 / 专题报道
资讯频道 惊人发现 深度追踪 · 独家整编

AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析

围绕上下分一块1分跑的快群、实用攻略相关线索,这个大趋势,值得每一位从业者认真对待。
聚合内容组
热点整理编辑专注于围绕专题信息补充进行内容整理,同时兼顾延伸阅读整理,重视页面首屏信息与正文承接,让热点正文、灰词导读和相关推荐保持基本协调,并根据当期话题做差异化补充。
  • 发布时间:2026-04-28 05:12:17
  • 来源:上下分一块1分跑的快群资讯中心
  • 栏目:新闻资讯
文章热度
阅读 863 点赞 4616 评论 1
AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析
核心导读:围绕上下分一块1分跑的快群、实用攻略相关线索,这个大趋势,值得每一位从业者认真对待。
摘要
围绕上下分一块1分跑的快群、实用攻略相关线索,这个大趋势,值得每一位从业者认真对待。

这个大趋势,值得每一位从业者认真对待。

深挖原因,代理任务的迭代循环是核心驱动。与一次性代码聊天不同,Agentic Coding要求AI反复读取上下文、调用工具、观察结果并重新规划。这导致大量输入token被消耗——历史对话、代码片段、错误日志等都需要反复塞入提示。输出token反而不是大头。论文将其描述为“通信税”:代理的“思考”本质上是频繁的内部沟通,而每次沟通都要为累积的上下文买单。简单类比,就像开会时每次发言前都要重读全部会议记录,而不是直接接续话题;

最近,一篇arXiv论文系统剖析了AI编码Agent在SWE-bench Verified任务上的token消耗轨迹。研究覆盖八个前沿大模型,结果显示agentic tasks的token用量远超普通代码聊天或单步推理,往往高出1000倍。更惊人的是,同一任务多次独立运行,总token消耗差异可达30倍,且输入token占据了成本的绝对主导。这件事比许多人想象的复杂得多,随机性才是隐藏最深的变量。

不同模型的token效率差距明显拉开。在相同任务集上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这一差异在批量部署或生产环境中会快速放大。GPT-5展现出相对出色的token经济性,而其他模型虽在特定能力上突出,“油耗”却更高。选择模型时,基准准确率之外,token效率已成为不可或缺的考量维度。

人类专家对任务难度的主观判断,与Agent实际token成本仅呈弱相关。开发者眼中棘手的bug,有时Agent处理起来token开销很低;反之,一些看似简单的修复却触发反复审查循环,吞噬大量资源。这种感知脱节让tokenomics管理变得棘手。我的判断是,迭代验证而非初始生成,才是agentic software engineering的核心成本点——代码审查吃掉近60% token,本质上是高度上下文依赖的对话过程在反复“重温”历史。

工具调用冗余同样不容忽视。Agent 在探索阶段频繁读取文件、执行终端命令,每次都产生额外输入 token,单纯代码库探索就可能烧掉几万 token。社区实践显示,预先生成项目地图或依赖图,仅在必要时调用具体工具,并对输出做关键片段 summarization,能显著压缩开销。对于重复性调用,尝试本地缓存或脚本预处理。70% 和 7%——这个剪刀差说明一切,高消耗与高准确率之间并无必然联系。

论文数据显示,同一任务不同运行的token消耗可相差高达30倍,这种随机性远超大多数人的预期。输入token而非输出token,才是主导成本的关键。Agent往往不是在“攻克难题”,而是在反复填充上下文、调用工具、修正偏差。准确率也并非随token线性上升,中等成本区间常达峰值,继续烧钱反而出现饱和。

你是不是也遇到过这种情况?用OpenHands或Claude Code修复一个看似简单的bug,任务跑完后账单却显示token消耗远超预期。arXiv上《How Do AI Agents Spend Your Money?》等最新论文显示,agentic coding任务的token消耗比普通代码聊天高出约1000倍,且输入token而非输出token主导整体成本。

论文还揭示了token消耗的高度随机性。同一个任务,多次运行的总消耗可能相差高达30倍。更高消耗并不必然带来更高准确率,中等成本区间往往已接近峰值,继续增加投入的边际收益迅速递减。这意味着单纯追求“多思考”或更长输出,在预算上并不总是划算。

深层拆解显示,软件开发生命周期中各阶段token分布极不均衡。代码审查不仅是token消耗主力,还呈现出输入主导特征(输入51.4%,输出24.7%),因为Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析反馈。相比之下,编码阶段输出占比更高(58%),更接近传统生成任务。不同模型间效率差异同样显著,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。

最近,一篇arXiv论文把AI Agent在编码场景下的真实成本问题摆到了台面上。研究者系统分析了八个前沿大模型在SWE-bench Verified任务上的执行轨迹,结果显示agentic coding任务的token消耗远超传统聊天或代码推理,输入token成了最大的成本黑洞。这件事比很多人以为的“AI能写代码就省钱”复杂得多,烧钱速度也远超表面印象。

排名代发飞机【seo1268】好友聊天,输入“上下分一块1分跑的快群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行的灯塔,哪怕渺小,也能指引方向。不必因梦想遥远就轻言放弃,逐梦的路上,本就布满挑战。拆分目标,步步前行,哪怕每天只前进一小步,也是在靠近理想。不惧旁人的质疑,不畏前路的漫长,坚守初心,全力以赴。只要心中有梦,眼里有光,脚下有路,终能跨越山海,奔赴心之所向的远方。的案例,提供了现实且可复盘的样本。

本文导航
当前页面围绕 上下分一块1分跑的快群 与 实用攻略 做持续整理,如需继续查看同类内容,可返回 首页新闻资讯, 也可直接进入 AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析AI执行挑战而非技术泡沫:正确看待盈利差距 继续阅读。
本文标题:AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析
固定链接:http://www.ss7a.cn/images/6101.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。

延伸阅读

AI Agent 高 token 消耗时代,固定订阅模式还能撑多久?深度经济挑战分析

最近,一篇来自arXiv的论文把AI Agent的成本问题摆到了台面上。研究针对SWE-bench Verified上的编码任务,分析了八个前沿大模型的轨迹,发现Agentic任务的token消耗远超普通代码推理或聊天场景,高达1000倍。输入token而非输出token成为主要开销来源,同一任务不同运行间消耗差异可达30倍,模型预测自身用量时相关性仅0.39,且普遍低估真实成本。这件事比表面上“...

发布时间:2026-06-25

AI编码Agent的“通信税”:输入token如何主导你的账单

最近一篇arXiv论文把AI编码Agent的真实成本摆到了台面上。研究团队分析了八个前沿大模型在SWE-bench Verified任务上的运行轨迹,结果显示,Agentic任务的token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,主导账单的不是模型输出的新代码,而是不断累积的输入token。 这件事比表面“AI帮你写代码省钱”复杂得多,账单背后的隐形成本正悄然吞噬预算。 很多...

发布时间:2026-06-25

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?

最近,一篇来自 arXiv 的论文把 AI Coding Agent 的“烧钱”问题摆到了台面上。论文标题直白——《How Do AI Agents Spend Your Money?》,核心是分析 Agent 在真实软件工程任务中的 token 消耗轨迹。研究团队使用 OpenHands 框架,在 SWE-bench Verified 数据集上跑了八大前沿大模型的轨迹,首次系统回答了三个问题:钱...

发布时间:2026-06-25

Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

最近,一篇arXiv论文把开发者圈子里的一个隐性痛点摆上了台面:Agentic Coding任务的token消耗,竟然是普通代码聊天或简单推理任务的1000倍左右。这不是夸张的比喻,而是基于SWE-bench Verified基准的实测数据。论文作者系统分析了八款前沿大模型在代理编码场景下的轨迹,发现输入token才是真正的成本大头,而不是大家以为的输出生成。表面上看,AI代理能自主迭代、调试、修...

发布时间:2026-06-25

哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比

你是不是也遇到过这种情况:用AI Agent帮忙写代码或修复Bug,任务一启动,token消耗就失控。跑完一个复杂任务,账单直接翻倍,却搞不清哪个模型更省钱。很多团队一开始只盯着准确率,结果部署后才发现,token成本成了最大隐患。选错模型,不仅开发效率打折,整个Agent项目都可能变得不划算。 最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》给...

发布时间:2026-06-25

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

最近一篇 arXiv 论文把 AI Agent 在编码任务中的 token 消耗情况摆到了台面上。研究团队分析了软件开发生命周期(SDLC)中的多代理系统执行轨迹,发现代码审查阶段平均占用了 59.4% 的 token,成为整个流程里最烧钱的环节。这远不是大家想象中“让 AI 写一段代码就完事”的场景。输入 token 而非输出 token 才是成本大头,整个 agentic coding 任务的...

发布时间:2026-06-25