评分 8.0 · 来源:arXiv cs.CL · 发布于 2026-04-06
评分依据:首次大规模系统性评估 LLM 和 Deep Research Agent 的引用 URL 幻觉问题,53K+URL 样本,结论直接指导工具使用策略
要点
研究团队使用 DRBench(53,090 个 URL)和 ExpertQA(168,021 个 URL,覆盖 32 个学术领域)对 10 个模型和 Agent 进行了系统性引用可靠性评估。核心发现:3-13% 的引用 URL 是幻觉——它们在 Wayback Machine 中没有记录,很可能从未存在。总体 5-18% 的 URL 无法解析。
有趣的是,Deep Research Agent 生成的幻觉引用数量更多,但同时修正率也更高。研究还提出了检测和修正引用幻觉的方法,并开源了评估工具。
🤖 AI 点评
对依赖 AI 做文献调研的研究者来说,这个 3-13% 的幻觉率是一个不容忽视的数字。如果你在用 Deep Research Agent 写论文,记得逐条验证引用——AI 给出的 URL 看起来完全合理,但可能根本不存在。