LLM 与 Deep Research Agent 的引用幻觉检测与修正：3-13% 引用 URL 为捏造

发布

2026年04月06日

采集 2026年04月06日 04:33

学术前沿 8.0 分 — 首次大规模系统性评估 LLM 和 Deep Research Agent 的引用 URL 幻觉问题，53K+URL 样本，结论直接指导工具使用策略

评分 8.0 · 来源：arXiv cs.CL · 发布于 2026-04-06

评分依据：首次大规模系统性评估 LLM 和 Deep Research Agent 的引用 URL 幻觉问题，53K+URL 样本，结论直接指导工具使用策略

要点

研究团队使用 DRBench（53,090 个 URL）和 ExpertQA（168,021 个 URL，覆盖 32 个学术领域）对 10 个模型和 Agent 进行了系统性引用可靠性评估。核心发现：3-13% 的引用 URL 是幻觉——它们在 Wayback Machine 中没有记录，很可能从未存在。总体 5-18% 的 URL 无法解析。

有趣的是，Deep Research Agent 生成的幻觉引用数量更多，但同时修正率也更高。研究还提出了检测和修正引用幻觉的方法，并开源了评估工具。

🤖 AI 点评

对依赖 AI 做文献调研的研究者来说，这个 3-13% 的幻觉率是一个不容忽视的数字。如果你在用 Deep Research Agent 写论文，记得逐条验证引用——AI 给出的 URL 看起来完全合理，但可能根本不存在。