评分 6 · 来源:arXiv · 发布于 2026-04-24
评分依据:提出 Defensibility Index 替代传统一致性指标评估规则型 AI 系统。方法论创新但应用场景偏窄。
内容审核系统通常通过测量与人工标签的一致率来评估。但在规则治理的环境中,这个假设失效了:多个决策可能在逻辑上都与治理策略一致,而一致率指标会将有效决策误判为错误——作者称之为 Agreement Trap(一致率陷阱)。
核心贡献
将评估重新定义为基于策略的正确性(policy-grounded correctness),并引入 Defensibility Index(DI,可辩护指数) 作为新指标。
DI 的优势
- 不依赖单一「标准答案」,允许多个合理决策共存
- 更准确地反映规则型环境的实际运作方式
- 减少模糊性被误判为错误的情况
适用场景
该方法特别适用于基于规则的 AI 审核系统、合规自动化工具等场景,在这些场景中传统评估指标可能产生误导性的质量信号。