Claude Code 默认推理努力从 high 降到 medium 的前因后果:Anthropic 的一次“错误权衡”与回滚
- 发布时间:2026-04-28 04:30:05
- 来源:广东一元一分红中麻将群资讯中心
- 栏目:新闻资讯
后文会结合案例说明变量如何发挥作用。
Anthropic的这次postmortem写得相当透明,承认了快速迭代中trade-off判断的失误,并承诺扩大dogfooding范围、加强prompt变更的ablation测试。这在AI公司中并不多见,但也暴露了工程实践与用户体验之间的张力——当变更影响不同用户群时,问题往往难以在内部复现。数据支持这些bug直接导致了异常token浪费,但样本覆盖的完整性仍有待观察。
Hacker News 等社区的讨论中,不少开发者用“gaslighting”描述公司初期回应的倾向,有人分享复杂工程任务中模型忽略项目惯例、幻觉加剧的具体案例。表面上看,这是一次典型的“Bug修复”故事,媒体和社区多将其归为AI工具迭代的阵痛。但仔细观察,主流吐槽更多停留在质量下滑本身,却较少触及为什么用户反馈响应滞后,以及初期为何优先强调“未发现明显退化”而非主动深挖真实体验差异。
月4日,Anthropic针对Claude Code在高推理努力模式下偶尔出现的极长思考时间问题进行了调整,将默认设置从high切换到medium。这一变化主要影响了Sonnet 4.6和Opus 4.6模型,旨在缓解UI界面看似冻结的现象,同时降低token消耗。
月 26 日的缓存优化则引入了一个 bug:本应仅清理闲置超一小时会话的旧思考记录,却在剩余会话中每轮持续触发,导致 Claude 反复遗忘上下文、重复相同步骤,甚至工具调用选择异常。频繁 cache miss 还加速了用量消耗。bug 在 4 月 10 日修复,但 HN 和 Reddit 上“突然忘性大”的真实吐槽一度难以与正常波动区分。这个案例说明,优化延迟的初衷与实际用户体验有时存在明显剪刀差。
月26日的缓存优化原本旨在清理闲置超一小时会话的旧思考记录以降低恢复延迟,却因bug导致清理操作在会话剩余时间内每轮触发。这直接造成Claude“忘性大”、重复相同步骤、工具调用异常,同时因频繁cache miss加速了限额消耗。bug在4月10日v2.1.101中修复,内部复现难度较高,因为它集中在特定闲置会话的交叉场景,与正常波动一度难以区分。
深层拆解,这次缓存bug源于3月26日的一次优化尝试。原本意图是针对idle超过1小时的会话,仅清除一次较旧的thinking历史,以减少恢复时的latency,并通过cache miss pruning控制token开销。官方明确提到使用了clear_thinking_20251015 API header并设置keep:1,本该只执行一次。
深挖三个变更的时间线,能清晰看到它们如何形成连锁反应,间接加速了限额消耗。3月4日默认reasoning effort从high降至medium,本意缓解UI偶发卡顿,却削弱了复杂逻辑的深度分析能力;3月26日的缓存优化本想清理闲置会话的旧思考历史,却因bug导致每轮都清空上下文,造成重复输出和额外token浪费;4月16日系统prompt新增verbosity限制(工具间≤25词、最终响应≤100词),短期内让编码质量评估下降约3%。
Anthropic 的 postmortem 详细拆解了三大变更的细节及其叠加逻辑。3 月 4 日,默认 reasoning effort 从 high 降至 medium,目的是缓解 high 模式下部分用户遇到的 UI 冻结式长延迟;这一调整虽在 4 月 7 日回滚,却让模型在生效期间显得“不够聪明”。
最近一个月,开发者社区在Hacker News和Reddit上充斥着对Claude Code的吐槽:编码质量明显下滑,工具调用频繁出错,思考过程似乎突然“遗忘”,重复输出增多,用户限额也消耗得更快。许多人直观地把问题归因于模型退化或Anthropic在偷偷省算力。
最近开发者在使用Claude Code时频繁遇到代码生成质量下滑的情况,模型偶尔出现遗忘上下文、重复输出或逻辑不完整的问题。4月23日Anthropic发布了一份详细postmortem报告,明确这些现象并非底层模型退化,而是Claude Code和Agent SDK产品层面的三个变更叠加所致。核心在于模型能力本身未变,但harness和prompt的调整直接放大了用户感知到的质量波动,尤其对依赖深度思考的Opus系列影响显著。
关注独家秘籍广东一元一分红中麻将群_草原旅游论坛页面的跳出率,能快速定位内容与用户预期的差距。
固定链接:http://www.ss7a.cn/images/4161.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。