OpenClaw代码越改越崩？新研究EvoClaw揭示：Agents持续开发成功率仅13.37%

评分 7.7 · 来源：36氪 · 发布于 2026-03-25

评分依据：EvoClaw研究首次量化Agent长周期持续开发的失败率，13.37%成功率揭示了当前AI编程的最大瓶颈

要点

AI编程已从辅助工具Copilot转向以AI为主、人类监督的Agent时代，但EvoClaw研究揭示了残酷现实：在长周期持续开发场景下，Agent的成功率仅为13.37%。研究指出，写一段函数或修一个孤立Bug，顶尖模型几乎能给出满意答案，但真实软件开发不是一次性代码生成——代码库会随需求变更膨胀，早期埋下的隐患在数月后被放大为系统性问题。

EvoClaw的研究框架量化了Agent在真实项目中的退化模式：随着交互轮次增加，上下文窗口被历史决策占满，Agent逐渐「遗忘」早期架构约定，导致后续修改与已有代码产生冲突。这一发现对整个AI编程社区都有重要参考价值。

🤖 AI 点评

13.37%这个数字应该让所有「Agent将取代程序员」的叙事冷静下来。它精准指出了当前AI编程的核心矛盾：单次代码生成能力很强，但缺乏对软件生命周期的一致性维护能力。人类的架构记忆、设计直觉和「对系统全貌的理解」，在长周期开发中仍然不可替代。这也是为什么OpenClaw等平台的Skill和记忆机制如此重要——它们本质上是在为Agent补充「长期记忆」，恰恰是EvoClaw研究所揭示的缺失环节。