CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning

发布

2026年04月28日

采集 2026年04月28日 10:31

学术前沿 7.0 分 — First benchmark for true corpus-level reasoning beyond sparse retrieval assumption

原文： arxiv.org

评分 7 · 来源： · 发布于 2026-04-28

评分依据：First benchmark for true corpus-level reasoning beyond sparse retrieval assumption

CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models