评分 8 · 来源:Simon Willison · 发布于 2026-04-24
评分依据:Claude Code 近两月质量问题根因分析:Anthropic 官方复盘三个独立 harness 问题。对开发者社区有直接参考价值。
过去两个月关于 Claude Code 输出质量下降的大量投诉被证实根植于真实问题——但不是模型本身的问题。
Anthropic 的事后分析
Anthropic 的 postmortem 详细描述了三个独立的 Claude Code harness 问题,它们共同导致了复杂且实质性的用户体验退化:
关键发现
其中一个问题尤其值得关注:3 月 26 日,Anthropic 上线了一个变更,清理空闲超过 1 小时的会话中的旧 thinking 过程——本意是减少用户等待时的延迟,但这个变更意外地影响了长会话中的代码生成质量。
另外两个 harness 层面的问题同样产生了级联效应,使得用户感知到的输出质量显著下降。
启示
这次事件说明:AI 编码工具的质量不仅取决于底层模型能力,工具链(harness)的正确性同等重要。对于构建 AI 工具的开发者来说,这是一个值得警惕的案例。