Skip to content
星际流动

An update on recent Claude Code quality reports

发布
采集
行业动态 8.0 分 — Claude Code 近两月质量问题根因分析:Anthropic 官方复盘三个独立 harness 问题。对开发者社区有直接参考价值。
原文: Simon Willison

评分 8 · 来源:Simon Willison · 发布于 2026-04-24

评分依据:Claude Code 近两月质量问题根因分析:Anthropic 官方复盘三个独立 harness 问题。对开发者社区有直接参考价值。

过去两个月关于 Claude Code 输出质量下降的大量投诉被证实根植于真实问题——但不是模型本身的问题

Anthropic 的事后分析

Anthropic 的 postmortem 详细描述了三个独立的 Claude Code harness 问题,它们共同导致了复杂且实质性的用户体验退化:

关键发现

其中一个问题尤其值得关注:3 月 26 日,Anthropic 上线了一个变更,清理空闲超过 1 小时的会话中的旧 thinking 过程——本意是减少用户等待时的延迟,但这个变更意外地影响了长会话中的代码生成质量。

另外两个 harness 层面的问题同样产生了级联效应,使得用户感知到的输出质量显著下降。

启示

这次事件说明:AI 编码工具的质量不仅取决于底层模型能力,工具链(harness)的正确性同等重要。对于构建 AI 工具的开发者来说,这是一个值得警惕的案例。


标签: