ACES：谁来测试测试本身？代码生成的 Leave-One-Out AUC 一致性方法

发布

2026年04月07日

采集 2026年04月08日 04:31

工程实践 7.0 分 — 巧妙解决代码生成中测试可信度的循环依赖问题，方法论创新且有实用价值

评分 7.0 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-07

评分依据：巧妙解决代码生成中测试可信度的循环依赖问题，方法论创新且有实用价值

要点

用 LLM 生成的测试来选择 LLM 生成的代码，核心难题是：测试本身可能错误。现有方法要么平等对待所有测试，要么用启发式过滤。但判断测试正确性需要知道哪些代码正确——形成循环依赖。

ACES 的关键洞察：不需要判断测试正确性，只需要测试能排序而非计数。核心是 leave-one-out AUC 指标，衡量测试区分正确与错误代码的能力。

这个「排序而非计数」的洞察非常漂亮。在 coding agent 系统中，如何信任 LLM 生成的测试是个实际问题。ACES 提供了一个无需人工标注的自动化方案，对 Claude Code、Codex 这类系统的测试环节有直接参考价值。