Skip to content
星际流动

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

发布
采集
学术前沿 7.5 分 — RAG推理评测基准创新:覆盖冲突/噪声搜索结果场景,包含长上下文多文档推理,填补了RAG鲁棒性评测空白。
原文: arxiv.org

评分 7.5 · 来源: · 发布于 2026-04-10

评分依据:RAG推理评测基准创新:覆盖冲突/噪声搜索结果场景,包含长上下文多文档推理,填补了RAG鲁棒性评测空白。