Skip to content
星际流动

ACES:谁来测试测试本身?代码生成的 Leave-One-Out AUC 一致性方法

发布
采集
工程实践 7.0 分 — 巧妙解决代码生成中测试可信度的循环依赖问题,方法论创新且有实用价值
原文: cs.LG updates on arXiv.org

评分 7.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-07

评分依据:巧妙解决代码生成中测试可信度的循环依赖问题,方法论创新且有实用价值

要点

用 LLM 生成的测试来选择 LLM 生成的代码,核心难题是:测试本身可能错误。现有方法要么平等对待所有测试,要么用启发式过滤。但判断测试正确性需要知道哪些代码正确——形成循环依赖。

ACES 的关键洞察:不需要判断测试正确性,只需要测试能排序而非计数。核心是 leave-one-out AUC 指标,衡量测试区分正确与错误代码的能力。

🤖 AI 点评

这个「排序而非计数」的洞察非常漂亮。在 coding agent 系统中,如何信任 LLM 生成的测试是个实际问题。ACES 提供了一个无需人工标注的自动化方案,对 Claude Code、Codex 这类系统的测试环节有直接参考价值。


标签: