评分 6 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:超越标量评分的AI审稿评估框架,关注文本论证质量而非分数。对auto-review方向有价值
现状问题
LLM驱动的自动同行评审发展迅速,但现有benchmark将审稿主要视为评分预测任务。作者认为审稿的价值在于文本论证——论点、问题和批评——而非一个标量分数。
Beyond Rating 框架
- 论证质量评估:关注review的argumentation quality
- 多维评审维度:涵盖准确性、建设性、完整性等
- ** holistic evaluation**:全面评估AI review的实际效用
意义
推动auto-review领域从”打分”转向”真正评审”,对AI辅助学术审稿有重要参考价值。