Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews

发布

2026年04月22日

采集 2026年04月22日 06:31

学术前沿 6.0 分 — 超越标量评分的AI审稿评估框架，关注文本论证质量而非分数。对auto-review方向有价值

评分 6 · 来源：cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据：超越标量评分的AI审稿评估框架，关注文本论证质量而非分数。对auto-review方向有价值

现状问题

LLM驱动的自动同行评审发展迅速，但现有benchmark将审稿主要视为评分预测任务。作者认为审稿的价值在于文本论证——论点、问题和批评——而非一个标量分数。

推动auto-review领域从”打分”转向”真正评审”，对AI辅助学术审稿有重要参考价值。