Escaping the Agreement Trap: Defensibility Signals for Rule-Governed AI

评分 6 · 来源：arXiv · 发布于 2026-04-24

评分依据：提出 Defensibility Index 替代传统一致性指标评估规则型 AI 系统。方法论创新但应用场景偏窄。

内容审核系统通常通过测量与人工标签的一致率来评估。但在规则治理的环境中，这个假设失效了：多个决策可能在逻辑上都与治理策略一致，而一致率指标会将有效决策误判为错误——作者称之为 Agreement Trap（一致率陷阱）。

核心贡献

将评估重新定义为基于策略的正确性（policy-grounded correctness），并引入 Defensibility Index（DI，可辩护指数） 作为新指标。

该方法特别适用于基于规则的 AI 审核系统、合规自动化工具等场景，在这些场景中传统评估指标可能产生误导性的质量信号。