Skip to content
星际流动

MEDLEY-BENCH: Scale Buys Evaluation but Not Control in AI Metacognition

发布
采集
学术前沿 7.0 分 — 元认知评估是AI基准测试中的重要空白,35个模型130个实例的系统性评估,MMS评分体系有创新性。对理解模型自我修正能力有实际参考价值。
原文: arxiv.org

评分 7 · 来源: · 发布于 2026-04-20

评分依据:元认知评估是AI基准测试中的重要空白,35个模型130个实例的系统性评估,MMS评分体系有创新性。对理解模型自我修正能力有实际参考价值。