AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析

围绕上下分一块1分跑的快群、实用攻略相关线索，这个大趋势，值得每一位从业者认真对待。

资

聚合内容组

热点整理编辑专注于围绕专题信息补充进行内容整理，同时兼顾延伸阅读整理，重视页面首屏信息与正文承接，让热点正文、灰词导读和相关推荐保持基本协调，并根据当期话题做差异化补充。

发布时间：2026-04-28 05:12:17
来源：上下分一块1分跑的快群资讯中心
栏目：新闻资讯

文章热度

阅读 863 点赞 4616 评论 1

AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析

核心导读：围绕上下分一块1分跑的快群、实用攻略相关线索，这个大趋势，值得每一位从业者认真对待。

摘要

围绕上下分一块1分跑的快群、实用攻略相关线索，这个大趋势，值得每一位从业者认真对待。

这个大趋势，值得每一位从业者认真对待。

深挖原因，代理任务的迭代循环是核心驱动。与一次性代码聊天不同，Agentic Coding要求AI反复读取上下文、调用工具、观察结果并重新规划。这导致大量输入token被消耗——历史对话、代码片段、错误日志等都需要反复塞入提示。输出token反而不是大头。论文将其描述为“通信税”：代理的“思考”本质上是频繁的内部沟通，而每次沟通都要为累积的上下文买单。简单类比，就像开会时每次发言前都要重读全部会议记录，而不是直接接续话题；

最近，一篇arXiv论文系统剖析了AI编码Agent在SWE-bench Verified任务上的token消耗轨迹。研究覆盖八个前沿大模型，结果显示agentic tasks的token用量远超普通代码聊天或单步推理，往往高出1000倍。更惊人的是，同一任务多次独立运行，总token消耗差异可达30倍，且输入token占据了成本的绝对主导。这件事比许多人想象的复杂得多，随机性才是隐藏最深的变量。

不同模型的token效率差距明显拉开。在相同任务集上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这一差异在批量部署或生产环境中会快速放大。GPT-5展现出相对出色的token经济性，而其他模型虽在特定能力上突出，“油耗”却更高。选择模型时，基准准确率之外，token效率已成为不可或缺的考量维度。

人类专家对任务难度的主观判断，与Agent实际token成本仅呈弱相关。开发者眼中棘手的bug，有时Agent处理起来token开销很低；反之，一些看似简单的修复却触发反复审查循环，吞噬大量资源。这种感知脱节让tokenomics管理变得棘手。我的判断是，迭代验证而非初始生成，才是agentic software engineering的核心成本点——代码审查吃掉近60% token，本质上是高度上下文依赖的对话过程在反复“重温”历史。

工具调用冗余同样不容忽视。Agent 在探索阶段频繁读取文件、执行终端命令，每次都产生额外输入 token，单纯代码库探索就可能烧掉几万 token。社区实践显示，预先生成项目地图或依赖图，仅在必要时调用具体工具，并对输出做关键片段 summarization，能显著压缩开销。对于重复性调用，尝试本地缓存或脚本预处理。70% 和 7%——这个剪刀差说明一切，高消耗与高准确率之间并无必然联系。

论文数据显示，同一任务不同运行的token消耗可相差高达30倍，这种随机性远超大多数人的预期。输入token而非输出token，才是主导成本的关键。Agent往往不是在“攻克难题”，而是在反复填充上下文、调用工具、修正偏差。准确率也并非随token线性上升，中等成本区间常达峰值，继续烧钱反而出现饱和。

你是不是也遇到过这种情况？用OpenHands或Claude Code修复一个看似简单的bug，任务跑完后账单却显示token消耗远超预期。arXiv上《How Do AI Agents Spend Your Money?》等最新论文显示，agentic coding任务的token消耗比普通代码聊天高出约1000倍，且输入token而非输出token主导整体成本。

论文还揭示了token消耗的高度随机性。同一个任务，多次运行的总消耗可能相差高达30倍。更高消耗并不必然带来更高准确率，中等成本区间往往已接近峰值，继续增加投入的边际收益迅速递减。这意味着单纯追求“多思考”或更长输出，在预算上并不总是划算。

深层拆解显示，软件开发生命周期中各阶段token分布极不均衡。代码审查不仅是token消耗主力，还呈现出输入主导特征（输入51.4%，输出24.7%），因为Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析反馈。相比之下，编码阶段输出占比更高（58%），更接近传统生成任务。不同模型间效率差异同样显著，Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。

最近，一篇arXiv论文把AI Agent在编码场景下的真实成本问题摆到了台面上。研究者系统分析了八个前沿大模型在SWE-bench Verified任务上的执行轨迹，结果显示agentic coding任务的token消耗远超传统聊天或代码推理，输入token成了最大的成本黑洞。这件事比很多人以为的“AI能写代码就省钱”复杂得多，烧钱速度也远超表面印象。

排名代发飞机【seo1268】好友聊天，输入“上下分一块1分跑的快群”咨询客服，娱乐游戏作为民间很受欢迎的纸牌玩法，乐趣集中在快节奏的刺激感、心理博弈的张力，这两种玩法的规则几乎一学就会，不用记复杂的牌型搭配，就算是新手也能快速上手，梦想是前行的灯塔，哪怕渺小，也能指引方向。不必因梦想遥远就轻言放弃，逐梦的路上，本就布满挑战。拆分目标，步步前行，哪怕每天只前进一小步，也是在靠近理想。不惧旁人的质疑，不畏前路的漫长，坚守初心，全力以赴。只要心中有梦，眼里有光，脚下有路，终能跨越山海，奔赴心之所向的远方。的案例，提供了现实且可复盘的样本。

本文导航

当前页面围绕上下分一块1分跑的快群与实用攻略做持续整理，如需继续查看同类内容，可返回首页、新闻资讯，也可直接进入 AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析、 AI执行挑战而非技术泡沫：正确看待盈利差距继续阅读。

同栏阅读： Grab Holdings GRAB 现金流与流动性：支撑股价底部的关键因素 / 为什么有些宝妈怀孕到分娩都没感觉？隐性妊娠背后的真相与自查提醒 / 云迁移与现代化：AI盈利的被忽略前置步骤

本文标题：AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析
固定链接：http://www.ss7a.cn/images/6101.html
说明：本页为频道内容整理与信息归档页面，便于围绕当前主题做连续查阅与延伸阅读。

AI Agent 高 token 消耗时代，固定订阅模式还能撑多久？深度经济挑战分析

最近，一篇来自arXiv的论文把AI Agent的成本问题摆到了台面上。研究针对SWE-bench Verified上的编码任务，分析了八个前沿大模型的轨迹，发现Agentic任务的token消耗远超普通代码推理或聊天场景，高达1000倍。输入token而非输出token成为主要开销来源，同一任务不同运行间消耗差异可达30倍，模型预测自身用量时相关性仅0.39，且普遍低估真实成本。这件事比表面上“...

发布时间：2026-06-25

AI编码Agent的“通信税”：输入token如何主导你的账单

最近一篇arXiv论文把AI编码Agent的真实成本摆到了台面上。研究团队分析了八个前沿大模型在SWE-bench Verified任务上的运行轨迹，结果显示，Agentic任务的token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是，主导账单的不是模型输出的新代码，而是不断累积的输入token。这件事比表面“AI帮你写代码省钱”复杂得多，账单背后的隐形成本正悄然吞噬预算。很多...

发布时间：2026-06-25

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？

最近，一篇来自 arXiv 的论文把 AI Coding Agent 的“烧钱”问题摆到了台面上。论文标题直白——《How Do AI Agents Spend Your Money?》，核心是分析 Agent 在真实软件工程任务中的 token 消耗轨迹。研究团队使用 OpenHands 框架，在 SWE-bench Verified 数据集上跑了八大前沿大模型的轨迹，首次系统回答了三个问题：钱...

发布时间：2026-06-25

Agentic Coding 任务比普通代码聊天贵1000倍？论文拆解AI代理真实成本

最近，一篇arXiv论文把开发者圈子里的一个隐性痛点摆上了台面：Agentic Coding任务的token消耗，竟然是普通代码聊天或简单推理任务的1000倍左右。这不是夸张的比喻，而是基于SWE-bench Verified基准的实测数据。论文作者系统分析了八款前沿大模型在代理编码场景下的轨迹，发现输入token才是真正的成本大头，而不是大家以为的输出生成。表面上看，AI代理能自主迭代、调试、修...

发布时间：2026-06-25

哪款大模型在 Agentic Coding 中最省 token？8 大前沿模型对比

你是不是也遇到过这种情况：用AI Agent帮忙写代码或修复Bug，任务一启动，token消耗就失控。跑完一个复杂任务，账单直接翻倍，却搞不清哪个模型更省钱。很多团队一开始只盯着准确率，结果部署后才发现，token成本成了最大隐患。选错模型，不仅开发效率打折，整个Agent项目都可能变得不划算。最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》给...

发布时间：2026-06-25

代码审查阶段为什么吃掉 AI Agent 近 60% token？开发流程 tokenomics 拆解

最近一篇 arXiv 论文把 AI Agent 在编码任务中的 token 消耗情况摆到了台面上。研究团队分析了软件开发生命周期（SDLC）中的多代理系统执行轨迹，发现代码审查阶段平均占用了 59.4% 的 token，成为整个流程里最烧钱的环节。这远不是大家想象中“让 AI 写一段代码就完事”的场景。输入 token 而非输出 token 才是成本大头，整个 agentic coding 任务的...

发布时间：2026-06-25

频道导航

站点：www.ss7a.cn

栏目：新闻资讯 / 深度观察 / 专题报道

热点：上下分一块1分跑的快群、实用攻略

更新：2026-04-28 05:12:17