企业在评估免押金1元1分红中麻将群时,越来越注重全生命周期成本。
模型间的效率差距同样值得注意。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不是边缘差异,对需要频繁调用Agent的团队来说,选择合适的基础模型能直接节省大笔API费用。论文对比显示,并非所有“大模型”在agentic场景下都同样经济。
最近一篇arXiv论文把AI代理的成本黑箱拉到了台前。这项研究首次系统追踪了八个前沿大模型在SWE-bench Verified基准上的完整代理轨迹,聚焦编码任务中的token消耗模式。代理看似能处理多步复杂工作流,实际却让token用量呈现爆炸式增长。输入token而非输出,成为主导开销的主力,这与普通聊天或单次代码推理形成鲜明对比。
SWE-bench Verified包含500个经过人工验证的真实GitHub issue,Agent需要反复阅读代码库、定位问题、修改代码并验证测试。这类多轮交互任务的token消耗量级与简单提示完全不同。论文数据显示,Agentic任务的token使用往往比基准代码聊天高出1000倍以上,而主导因素并非模型输出的新代码,而是不断累积的历史上下文和工具输出。
值得持续跟踪的是,如果未来模型在自我预测和上下文管理上取得突破,成本控制将更为精准;反之,固定费率订阅模式可能难以长期适应agentic任务的波动特性。这个gap比表面看起来复杂得多,它提醒我们,人类经验在token经济维度上正面临明显局限。
主流观点往往将AI Agent编码描述为高效工具,能够通过自动迭代和调试大幅缩短开发周期。不少报道强调,尽管单次调用token价格不低,但长远来看能取代部分人工工作,投入产出比值得期待。然而,这些讨论大多聚焦在最终输出的代码质量上,很少触及Agent在多轮交互中如何持续累积上下文,从而悄无声息地推高总开销。
我的判断是,如果项目涉及公司核心代码或数据隐私要求严格,且AI Agent属于日常高频工具,优先本地开源方案更划算——长期看省下的token费用和安心感价值更高。当然,这取决于具体硬件条件和团队储备,值得持续跟踪,现在下结论为时尚早。数据支持这个方向,但样本量和实际场景仍有局限。
论文数据揭示了软件开发生命周期各阶段 token 分布的显著不均衡。代码审查阶段不仅占比最高,其输入 token 比例达 51.4%,远高于输出,Agent 需要反复注入已有代码库和历史上下文才能产出分析反馈。这与编码阶段形成对比,后者输出 token 占比更高,因为主要任务是生成新代码。整体来看,后期精炼验证过程才是 token 消耗的真正驱动因素。
你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单拉出来一看,输入token却占了大头——这正是大多数团队正在踩的坑。
输出token溢价听起来确实吓人,但Agentic场景里,真正驱动长期成本的往往是那些反复累积的输入上下文。即使定价表上输出更贵,输入端的雪球效应在多轮迭代中已悄然主导了账单。纠正确认这个误区后,预算规划才能从被动应对转向主动的输入优化工程。
前沿模型对自身token用量的预测能力同样薄弱,相关系数最高仅0.39,且系统性低估真实成本。这意味着即使顶级模型,也难以在任务启动前给出可靠预算预估。就像租车却无法预知油耗和路线,代理场景下的成本不可控正从后台推向前台。未来,如果token预测机制无法有效突破,复杂代理的规模化落地或将主要局限于预算充裕的场景,而透明定价的转型方向,或许将成为行业不得不面对的现实议题。
把提升判断力当作一个长期课题,而不是短期 KPI。