SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

发布

2026年04月10日

采集 2026年04月10日 04:31

学术前沿 7.5 分 — RAG推理评测基准创新：覆盖冲突/噪声搜索结果场景，包含长上下文多文档推理，填补了RAG鲁棒性评测空白。

原文： arxiv.org

评分 7.5 · 来源： · 发布于 2026-04-10

评分依据：RAG推理评测基准创新：覆盖冲突/噪声搜索结果场景，包含长上下文多文档推理，填补了RAG鲁棒性评测空白。

Video Parallel Scaling: Aggregating Diverse Frame Subsets for VideoLLMs

WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior