多代理协作中的Token浪费:从通信开销到优化路径
作者信息
作者:文章整理组
简介:站内内容组主要处理公开资料整合与页面摘要整理,侧重把分散素材整理成清晰内容,常见于站内内容更新流程,让文章页在移动端和 PC 端都保持清晰可读,并根据当期话题做差异化补充。
发布时间:2026-04-28 05:12:08
文章热度
这要求写作者提升自身的跟踪分析和逻辑整理能力。
论文数据揭示了软件开发生命周期各阶段token分布的显著不均衡。代码审查不仅占比最高,其输入token比例也达到51.4%,远高于输出24.7%,因为Agent需要反复注入已有代码、上下文和历史修改进行分析。相比之下,编码阶段输出token占比更高,符合生成新内容的直观逻辑。这种阶段性差异说明,单纯追求更强模型未必能线性降低成本。
本地AI Agent则是另一种思路。利用开源模型结合Ollama等工具在本地部署,token消耗接近零,主要成本是电费和硬件折旧。数据完全不出本地网络,隐私安全得到最大保障,内网响应延迟也更低,特别适合长期运行的高频任务。一些开发者实测显示,把常规编码工作迁移到本地后,月电费控制在百元左右,相比云端数万消耗,长期看节省明显。
Reflexion loop和self-correction cycles这类机制,本意是提升准确性,却让上下文像滚雪球般累积,每一轮都在为历史买单。
许多开发者在初次尝试AI Agent时,往往被其在SWE-bench等基准上自主完成任务的表现吸引,认为初始代码生成环节效率突出。主流讨论中,模型能力越强,整体成本似乎就越可控,网上也常看到“一次复杂任务烧掉百万token”的吐槽。但这些观察多停留在生成阶段的表面,忽略了完整开发流程中后续迭代的真实开销。
最近一篇arXiv论文把AI代理的成本黑箱拉到了台前。这项研究首次系统追踪了八个前沿大模型在SWE-bench Verified基准上的完整代理轨迹,聚焦编码任务中的token消耗模式。代理看似能处理多步复杂工作流,实际却让token用量呈现爆炸式增长。输入token而非输出,成为主导开销的主力,这与普通聊天或单次代码推理形成鲜明对比。
人类专家对任务难度的主观评判,与Agent实际消耗的token量只有弱相关。开发者认为简单的bug修复,Agent可能因反复试错而烧掉大量输入token;反之,一些看似复杂的问题有时却能较快收敛。这种感知与计算实际之间的脱节,给任务拆解和预算预估增加了额外不确定性。数据支持这个观察,但样本覆盖的场景仍需更多验证。
模型间的token效率差异进一步放大了这一问题。在相同SWE-bench类任务上,某些前沿模型的平均消耗明显高于效率更高的选项,输入token占比常超过50%。人类专家评定的任务难度与实际token成本相关性微弱,模型自身对消耗的预测相关性也仅在0.4左右且系统性低估。这一点目前行业内仍有不同声音,但实测数据已足够提醒我们,盲目依赖迭代循环容易让预算在不可预测的随机性中蒸发。
很多开发者在用AI Agent处理编码任务时,都被突然飙升的token账单惊到。原本以为只是简单调用几次,结果一个月消耗轻松破万甚至几万,尤其在agentic流程中,规划、迭代和工具调用反复拉高输入token。这让团队陷入两难:云端调用性能强劲却费用失控,本地部署几乎零token却担心能力不足或硬件门槛高,同时隐私数据是否上云也让人不安。这种权衡直接决定了项目长期成本和数据安全底线。
agentic coding的“费钱”本质在于大量迭代和上下文交互。论文轨迹数据表明,同一任务的不同运行间token消耗差异可达30倍,随机性极强。更关键的是,高消耗并不必然带来高准确率——准确率往往在中级成本区间就达到峰值,继续追加token反而出现收益递减。输入token占比高企,解释了为什么许多开发者感觉“越用越贵”:每次文件读取、工具调用和历史累积都在悄然推高账单。
Kimi K2 和 Claude Sonnet 4.5 在 token 消耗上明显更高,同一组任务平均多出 150 万 token 以上。论文推测,这可能与它们更长的迭代循环、不同的上下文处理方式有关,尤其在处理大型代码库时容易陷入反复调试。数据还揭示了一个反直觉现象:token 使用具有高度随机性,同一任务多次运行的总消耗可能相差高达 30 倍。
真人一元一分红中麻将群的实战效果,远没有宣传中那么线性。
固定链接:http://www.ss7a.cn/6041.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。