An update on recent Claude Code quality reports

评分 8 · 来源：Simon Willison · 发布于 2026-04-24

评分依据：Claude Code 近两月质量问题根因分析：Anthropic 官方复盘三个独立 harness 问题。对开发者社区有直接参考价值。

过去两个月关于 Claude Code 输出质量下降的大量投诉被证实根植于真实问题——但不是模型本身的问题。

Anthropic 的事后分析

Anthropic 的 postmortem 详细描述了三个独立的 Claude Code harness 问题，它们共同导致了复杂且实质性的用户体验退化：

其中一个问题尤其值得关注：3 月 26 日，Anthropic 上线了一个变更，清理空闲超过 1 小时的会话中的旧 thinking 过程——本意是减少用户等待时的延迟，但这个变更意外地影响了长会话中的代码生成质量。

另外两个 harness 层面的问题同样产生了级联效应，使得用户感知到的输出质量显著下降。

这次事件说明：AI 编码工具的质量不仅取决于底层模型能力，工具链（harness）的正确性同等重要。对于构建 AI 工具的开发者来说，这是一个值得警惕的案例。