LongSumEval: Question-Answering Based Evaluation and Feedback-Driven Refinement for Long Document Summarization

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 4.5 分 — QA 驱动的长文档摘要评估与反馈精炼框架

原文： arXiv cs.CL

评分 4.5 · 来源：arXiv cs.CL · 发布于 2026-04-29

评分依据：QA 驱动的长文档摘要评估与反馈精炼框架

长文档摘要评估仍是研究瓶颈。现有指标与人判断弱相关且只给聚合分数。LongSumEval 引入统一框架通过结构化 QA 反馈桥接评估与生成。

标签：

Cross-Lingual Jailbreak Detection via Semantic Codebooks

The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in LLMs