评分 7 · 来源: · 发布于 2026-04-20 评分依据:元认知评估是AI基准测试中的重要空白,35个模型130个实例的系统性评估,MMS评分体系有创新性。对理解模型自我修正能力有实际参考价值。