静态优化时代的红利,正在逐步消失。
arXiv 最新论文《How Do AI Agents Spend Your Money?》对 agentic coding 任务的轨迹分析显示,AI Agent 在复杂编码场景下的 token 消耗远超普通聊天或单次代码推理,差距可达约 1000 倍甚至更高。输入 token 而非输出 token 成为主导成本驱动因素,同一任务不同运行间的消耗差异有时高达 30 倍。
上下文膨胀同样直接推高成本。Agent 运行中不断累积对话历史、工具输出和代码片段,输入窗口迅速扩张。针对这一问题,引入中间检查点机制,每固定步数对上下文进行 summarization 压缩,仅保留关键决策和变更记录;同时启用 caching,对重复文件或工具结果本地缓存,减少重复计费。在中等规模代码库项目中,预先生成架构摘要让 Agent 优先读取摘要而非全量文件,能显著降低输入开销。
相比之下,Kimi K2和Claude Sonnet 4.5在token消耗上处于较高区间,同一任务下平均多出150万+ token。论文分析可能的原因包括更激进的上下文扩展策略或更长的迭代循环,尤其在处理大型代码库时容易进入反复调试状态。当然,这些模型在准确率峰值区间有时能提供更强的表现,适合对性能有极致要求的实验性项目。但数据也显示,多消耗的token并不总能线性换来更好结果,这一点值得开发者警惕。
上下文优化同样不可或缺。通过定期总结模块压缩历史轨迹,只保留核心决策和最新状态而非全量记录,同时优先选用token效率更高的模型,能将整体消耗降低70-90%。实操中,结合缓存机制避免重复工具输出被反复处理,效果往往超出预期。值得持续跟踪的是,随着Agentic工作流进一步普及,如何在准确率与成本之间找到更优平衡,仍是一个开放的问题。
本地AI Agent通过Ollama等工具部署开源模型,token消耗接近零,主要负担转为电费和硬件折旧。数据完全留在本地网络,隐私得到最大保障,内网延迟也更低,特别适合高频迭代或长期运行的项目。行业实测中,不少开发者将常规编码工作迁移本地后,月电费控制在百元级别,与云端数万消耗形成鲜明对比。
arXiv 近期论文《How Do AI Agents Spend Your Money?》对八个前沿 LLM 在 SWE-bench Verified 上的轨迹进行了系统分析,发现 agentic coding 任务的 token 消耗比普通代码聊天或单轮推理高出约 1000 倍,而且主导成本的几乎全是输入 token,而非输出。同一任务不同运行之间的消耗差异可达 30 倍,随机性极强,这让成本预测变得异常困难。
此外,前沿模型预测自身token消耗的能力相当有限。论文发现,模型预测与实际消耗的相关性最高仅0.39,且存在系统性低估。这直接导致开发者在启动任务前难以准确预判开销,预算控制变得充满不确定性。短期来看,这会让不少中小团队在实际落地Agentic Coding时面临预算不可控的风险;长期而言,它或许会倒逼行业加速向token-efficient的代理架构演进,比如更优的上下文缓存或专用成本预测工具。
综合来看,在Agentic Coding场景中,输入token主导了整体花费,而GPT-5类高效模型在平衡准确率与成本上展现出更务实的优势。预算有限或追求稳定大规模应用的团队,可优先考虑这类token-efficient模型;若任务极度复杂且预算充裕,再权衡高消耗模型在特定峰值下的潜力。方向是对的,但现实更复杂。最终,开发者或许需要通过小规模实测来校准自己的选择——你跑过的Agent项目,token账单又如何呢?
arXiv 最新论文《How Do AI Agents Spend Your Money?》对八个前沿大模型在 SWE-bench Verified 数据集上的 Agentic Coding 轨迹进行了系统分析,结果显示 Agentic 任务的 token 消耗远超普通代码推理或聊天场景,高出约 1000 倍以上。更关键的是,成本主要由输入 token 主导,而非输出。
防控的关键在于认识到高token不等于高准确率这一反直觉事实。单纯依赖更多迭代往往是在重复喂历史给自己烧钱,而非真正提升智能。arXiv分析显示,agentic任务中输入token累积导致的二次方级增长,正是许多预算超支案例的共同病灶。数据支持这个方向,但样本量有限,行业内对此仍有不同声音。我的判断是,主动设限比被动买单更现实,但这个判断可能需要随新框架迭代而修正。
手机一元一分红中麻将群的竞争,正在进入比耐心和执行力的阶段。