评分 7.5 · 来源: · 发布于 2026-04-10 评分依据:RAG推理评测基准创新:覆盖冲突/噪声搜索结果场景,包含长上下文多文档推理,填补了RAG鲁棒性评测空白。
评分 7.5 · 来源: · 发布于 2026-04-10
评分依据:RAG推理评测基准创新:覆盖冲突/噪声搜索结果场景,包含长上下文多文档推理,填补了RAG鲁棒性评测空白。