评分 7.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-07
评分依据:巧妙解决代码生成中测试可信度的循环依赖问题,方法论创新且有实用价值
要点
用 LLM 生成的测试来选择 LLM 生成的代码,核心难题是:测试本身可能错误。现有方法要么平等对待所有测试,要么用启发式过滤。但判断测试正确性需要知道哪些代码正确——形成循环依赖。
ACES 的关键洞察:不需要判断测试正确性,只需要测试能排序而非计数。核心是 leave-one-out AUC 指标,衡量测试区分正确与错误代码的能力。
🤖 AI 点评
这个「排序而非计数」的洞察非常漂亮。在 coding agent 系统中,如何信任 LLM 生成的测试是个实际问题。ACES 提供了一个无需人工标注的自动化方案,对 Claude Code、Codex 这类系统的测试环节有直接参考价值。