MEDLEY-BENCH: Scale Buys Evaluation but Not Control in AI Metacognition

发布

2026年04月20日

采集 2026年04月20日 04:00

学术前沿 7.0 分 — 元认知评估是AI基准测试中的重要空白，35个模型130个实例的系统性评估，MMS评分体系有创新性。对理解模型自我修正能力有实际参考价值。

原文： arxiv.org

评分 7 · 来源： · 发布于 2026-04-20

评分依据：元认知评估是AI基准测试中的重要空白，35个模型130个实例的系统性评估，MMS评分体系有创新性。对理解模型自我修正能力有实际参考价值。