评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:14 种摘要指标的 meta-evaluation + 自我评估精炼框架
LLM 生成摘要的可靠评估仍是开放挑战。本文对 14 种自动摘要指标和 LLM 评估器进行全面 meta-evaluation,跨 7 数据集 5 领域 1500+ 文档,并提出自我评估精炼框架。
评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:14 种摘要指标的 meta-evaluation + 自我评估精炼框架
LLM 生成摘要的可靠评估仍是开放挑战。本文对 14 种自动摘要指标和 LLM 评估器进行全面 meta-evaluation,跨 7 数据集 5 领域 1500+ 文档,并提出自我评估精炼框架。