评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:QA 驱动的长文档摘要评估与反馈精炼框架
长文档摘要评估仍是研究瓶颈。现有指标与人判断弱相关且只给聚合分数。LongSumEval 引入统一框架通过结构化 QA 反馈桥接评估与生成。
评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:QA 驱动的长文档摘要评估与反馈精炼框架
长文档摘要评估仍是研究瓶颈。现有指标与人判断弱相关且只给聚合分数。LongSumEval 引入统一框架通过结构化 QA 反馈桥接评估与生成。