评分 7.7 · 来源:arXiv cs.AI · 发布于 2026-04-23
评分依据:揭示代码生成中’心理-现实差距’这一根本缺陷:LLM幻觉执行轨迹并自信验证buggy代码。通过具体执行弥合差距。
最先进的代码生成框架依赖心理模拟——LLM内部追踪执行来验证正确性。我们暴露了一个根本性限制:心理-现实差距(Mental-Reality Gap)——模型幻觉执行轨迹并自信地验证有bug的代码。
核心发现:
- LLM在”脑内”执行代码时会产生可信度极高的幻觉
- 模型对这些幻觉执行轨迹有高度自信
- 导致buggy代码被错误地”验证”为正确
- 解决方案:通过具体执行(而非心理模拟)来弥合差距
实践意义:
- 对所有编码Agent(Cursor、Claude Code、Codex等)的可靠性有直接警示
- 支持需要高可靠性的代码生成场景