机会窗口仍然存在,但需要更聪明、更专注的投入方式。
最近arXiv上发布的论文《How Do AI Agents Spend Your Money?》对agentic coding任务的token消耗进行了系统性分析,基于八个前沿模型在SWE-bench Verified基准上的执行轨迹数据。研究发现,AI Agent在复杂编码场景下的token用量远超普通代码推理或聊天任务,差距可达约1000倍,且输入token而非输出token成为主导成本驱动因素。
人类专家对任务难度的主观评估,与Agent实际token成本仅呈现弱相关。这一点目前行业内仍有不同声音。一些看似棘手的bug,Agent可能快速处理;而简单修复却因上下文维护反复触发审查,烧掉大量资源。这种感知脱节,进一步放大了tokenomics管理的复杂性。
这些发现不是理论空谈,而是直接戳中开发者每天面对的账单焦虑。输入token主导成本,意味着每一次把历史对话、工具输出、代码仓库全塞进上下文,都在默默加码。变量大、预测差,让预算控制变得像猜谜。
行业预判显示,2026-2028年AI Agent的整体token使用量将呈现指数级增长,若不优化则可能引发“token危机”制约部署节奏。
打个比方,这就像开车时以为油耗基本稳定,结果每次路况、堵车或驾驶习惯不同,实际消耗就天差地别。AI Agent的成本不是简单的线性累加,而是受迭代循环和多代理通信支配的非线性过程。方向是对的,但现实更复杂。70%和7%这样的剪刀差在早期云迁移中出现过,这次的时间窗口可能短得多。
这一点目前行业内仍有不同声音。数据支持human-AI gap的存在,但是否在所有agentic workflow中都成立,还需更多跨领域验证。开发者或许该在正式部署前,先跑小规模token轨迹测试,而非单纯靠难度标签决策。方向是对的,但现实更复杂。
输入 token 主导 Agent 经济的这一特点,与直觉认知形成鲜明对比。Agent 在执行过程中需要将历史交互、工具输出、代码库片段以及先前尝试全部塞回提示词,导致上下文像滚雪球般膨胀。即使启用 token caching,每一轮调用仍会重新处理大量累积信息。OpenHands 等框架的默认内存管理方式,进一步放大了这一效应,使得单次任务的输入开销迅速占据总费用的绝大部分。
把两者放在一起对比,关键维度一目了然:token成本上,云端按量付费容易失控,本地几乎为零;隐私安全方面,云端数据上云有风险,本地数据不出域更安心;延迟性能上,本地内网更快,云端受网络影响;适用任务难度上,云端前沿模型处理高难度任务更有优势,本地适合中低难度或可拆解的任务。论文还发现,人为评定的任务难度与实际token消耗只有弱相关,这说明我们对复杂度的直觉有时和Agent真实开销对不上。
这项基于SWE-bench Verified基准的分析,覆盖了八款前沿模型的完整轨迹,揭示出代理在编码场景下的独特开销模式。表面看AI代理能自主迭代调试,似乎在解放人力;但深究数据,这件事远比“AI更聪明”复杂,开发者账单可能在不知不觉中大幅膨胀。
把本地与云端放在一起,token成本、隐私安全、延迟性能和适用场景的差异一目了然。论文还发现,人为评定的任务难度与实际token消耗仅弱相关,这说明我们对复杂度的直觉有时与Agent真实开销并不匹配。值得持续跟踪的是,模型间效率差异和随机性是否会随优化缩小。
当你把注意力更多放在用户真实行为路径上,排名代发飞机【seo1268】好友聊天,输入“哪里有二元一分红中麻将群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行的灯塔,哪怕渺小,也能指引方向。不必因梦想遥远就轻言放弃,逐梦的路上,本就布满挑战。拆分目标,步步前行,哪怕每天只前进一小步,也是在靠近理想。不惧旁人的质疑,不畏前路的漫长,坚守初心,全力以赴。只要心中有梦,眼里有光,脚下有路,终能跨越山海,奔赴心之所向的远方。的逻辑就会逐步清晰。