评分 7.7 · 来源:36氪 · 发布于 2026-03-25
评分依据:EvoClaw研究首次量化Agent长周期持续开发的失败率,13.37%成功率揭示了当前AI编程的最大瓶颈
要点
AI编程已从辅助工具Copilot转向以AI为主、人类监督的Agent时代,但EvoClaw研究揭示了残酷现实:在长周期持续开发场景下,Agent的成功率仅为13.37%。研究指出,写一段函数或修一个孤立Bug,顶尖模型几乎能给出满意答案,但真实软件开发不是一次性代码生成——代码库会随需求变更膨胀,早期埋下的隐患在数月后被放大为系统性问题。
EvoClaw的研究框架量化了Agent在真实项目中的退化模式:随着交互轮次增加,上下文窗口被历史决策占满,Agent逐渐「遗忘」早期架构约定,导致后续修改与已有代码产生冲突。这一发现对整个AI编程社区都有重要参考价值。
🤖 AI 点评
13.37%这个数字应该让所有「Agent将取代程序员」的叙事冷静下来。它精准指出了当前AI编程的核心矛盾:单次代码生成能力很强,但缺乏对软件生命周期的一致性维护能力。人类的架构记忆、设计直觉和「对系统全貌的理解」,在长周期开发中仍然不可替代。这也是为什么OpenClaw等平台的Skill和记忆机制如此重要——它们本质上是在为Agent补充「长期记忆」,恰恰是EvoClaw研究所揭示的缺失环节。